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本 书 全 面 地 介绍 了 3D 集成 电路 设计 相关 的 前 沿 技 术 ， 章节 之 间 有 侧 
重 也 有 联系 。 第 1 章 首 先 通过 处 理 需 与 存储 器 速度 差异 造成 的 访问 速度 问 
Bi. 引入 了 3D 集成 电路 产生 的 原因 和 存在 的 问题 。 第 2 章 介 绍 了 3D 集成 
电路 制造 相关 的 基本 工艺 问题 。 针 对 3D 集成 电路 远 比 平面 集成 电路 严重 
的 散热 问题 ， 在 第 3 章 总 结 了 相关 的 热 分 析 和 电源 传输 设计 方法 ， 简 述 了 
解决 相关 瓶颈 问题 的 方案 。 随 后 ， 本 书 走 向 设计 层面 ， 在 第 4 章 介 绍 了 人 带 
4i 2D ERAN 3D 块 的 3D 布局 规划 算法 。 在 第 S 章 介 绍 了 几 种 基于 热 分 析 的 
3D 全 局 布局 技术 ， 并 通过 实验 结果 比较 了 多 种 3D 布局 技术 。 第 6 章 针 对 
的 是 3D 集成 电路 的 布线 ， 介 绍 了 基于 热 分 析 的 3D 布线 和 热 通 孔 插 入 技 
术 。 第 7 章 介 绍 了 重 排 传 统 的 2D 微 处 理 器 模块 的 方法 ， 对 不 同 设计 技术 、 
方法 进行 了 讨论 。 接 下 来 ， 本 书 继 续 提升 设计 层次 ， 在 第 8 章 讨论 了 3D 
NoC 的 设计 ， 包 括 多 种 网 络 拓扑 结构 和 3D 片上 路 由 器 设计 。 第 9 章 介绍 了 
高 能 效 服 务 器 设计 的 3D 架构 研究 。 最 后 ， 第 10 章 对 3D 集成 电路 技术 洪 
在 的 成 本 优势 进行 了 系统 级 分 析 与 设计 探索 。 

本 书 可 作为 3D 集成 电路 相关 研究 人 员 、 工 程 技 术 人 员 的 参考 用 书 ， 
也 可 作为 高 等 院 校 相关 专业 高 年 级 本 科 生 和 研究 生 的 教材 和 参考 书 。 


译 者 F 


本 书 的 作者 都 是 3D 集成 电路 研究 领域 的 专家 ，Yuan Xie 教授 就 职 于 加 利 福 尼 
亚 大 学 圣 巴 巴 拉 分 校 (University of California at Santa Barbara) 。 由 于 他 在 3D 集成 
电路 架构 和 设计 自动 化 上 的 突出 贡献 , 在 2015 年 获 选 美国 电气 与 电子 工程 师 协 会 
4+ (IEEE Fellow) Jason Cong 教授 现 为 加 利 福 尼 亚 大 学 洛杉矶 分 校 ( University 
of California, Los Angeles, UCLA) 计算 机 系 教授 ， 系 主任 ,北京 大 学 客座 教授 。 他 
于 2001 年 获 选 美国 电气 与 电子 工程 师 协 会 会 士 (IEEE Fellow), Sachin Sapatnekar 
教授 在 明尼苏达 大 学 就 职 ， 曾 任 IEEE transaction of CAD 主编 ， 美 国电 气 与 电子 工 
程 师 协 会 会 士 (IEEE Fellow) 。 相 信 本 书 的 出 版 ， 可 以 把 几 位 会 士 对 3D 集成 电路 
设计 的 真知 灼 见 带 给 读者 。 

在 对 集成 电路 发 展 高 度 重视 的 时 代 ， 国 家 要 进步 离 不 开 对 最 新 技术 的 关注 。 
3D 集成 电路 作为 集成 电路 行业 中 最 有 潜力 的 新 技术 之 一 ， 其 研究 成 果 很 值得 我 们 
学 习 。 本 书 从 3D 集成 电路 的 制作 工艺 到 设计 、 热 分 析 乃 至 服务 器 架构 ， 全 面 地 介 
绍 了 3D 集成 电路 相关 的 新 技术 ,非常 难得 。 在 感谢 原作 者 杰出 工作 的 同时 ， 也 必 
须 感谢 机 械 工 业 出 版 社 慧 眼 拾 真 ， 为 我 们 大 家 引荐 了 本 书 。 

本 书 得 以 完成 ， 是 大 家 努力 的 成 果 。 修 立 刚 负责 翻译 了 其 中 第 1、3、4、5、 
6、8 章 ， 汪 人 金辉 、 宫 娜 老师 翻译 了 第 2、7 章 ， 付 婧 妍 翻译 了 第 9 章 ， 王 中 超 翻 译 
了 第 10 章 。 侯 立 刚 、 付 婧 妍 、 王 中 超 负 责 了 全 书 的 统 稿 工作 。 在 翻译 的 工程 中 ， 
也 得 到 了 同事 和 家 人 的 大 力 支持 ， 在 此 一 并 表示 感谢 ! 

另外 ， 本 书 的 出 版 过 程 中 ， 还 得 到 了 机 械 工业 出 版 社 的 大 力 帮 助 ， 特 此 表示 应 
心 的 谢意 。 

特别 需要 说 明 的 是 ， 本 书 的 翻译 得 到 了 北京 市 教委 面 上 项 目 (JC002999201401) 和 
北京 市 “青年 英才 ”计划 的 资助 。 

由 于 本 书 内 容 丰 富 ， 在 3D 集成 电路 领域 中 有 很 多 创见 ， 其 中 许多 词汇 并 没有 
确切 的 中 文 与 之 对 应 ， 这 为 本 书 的 翻译 增加 了 不 少 难度 。 尽 管 译 者 一 直 认 真 思考 ， 
仔细 求证 ， 但 难免 还 会 存在 错误 足 漏 ， 旦 请 广大 读者 批评 指正 。 译 者 联系 方式 为 
houligang@ bjut. edu. en, 
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我 们 生活 在 一 个 大 变革 的 时 代 ， 就 像 摩 尔 定律 描述 的 那样 ， 电 子 世界 最 近 的 几 
十 年 见证 了 前 所 未 有 的 成 长 和 进步 。 摩 尔 定律 预测 晶体 管 的 集成 度 每 1.5 ~2 4E 
一 番 。 与 此 同时 ， 单 个 器 件 的 性 能 同步 提升 ， 功 耗 同步 减 小 ， 这 也 让 集成 电路 的 总 
功 耗 保持 可 控 。 没 有 趋势 可 以 永远 持续 ， 不 幸 的 是 摩尔 定律 正 要 面 对 这 一 现状 。 

几 年 前 当 CMOS 器 件 不 再 能 继续 沿 着 以 往 的 规律 按 比 例 缩 小 时 ， 困 难 就 出 现 
了 。 像 栅 氧 化 层 厚度 等 关键 器 件 参 数 已 经 无 法 简单 地 按 比例 缩小 了 。 结 果 ， 器 件 的 
关 断 电流 开始 以 惊人 的 比率 飙升 。 这 些 传统 的 按 比 例 缩小 技术 的 连续 问题 致使 集成 
电路 时 钟 频率 降 到 几 GHz 的 范围 以 内 。 当 然 ， 芯 片 可 以 选 更 高 的 时 名 频率， 但 屠 
样 热 问 题 将 无 法 控制 。 这 引发 了 近期 处 理 器 的 多 核 趋势 ， 让 每 个 处 理 器 核 最 多 工作 
在 几 CHz。 这 样 做 的 目标 是 不 再 通过 提升 速度 提高 整体 性 能 ， 而 是 通过 增加 更 多 的 
处 理 器 核 来 增加 并 行 处 理 能 力 以 实现 性 能 提升 。 存 在 的 挑战 是 确保 通用 代码 可 以 有 
效 地 并 行 化 。 

另 一 个 提升 CMOS 工艺 性 能 的 潜在 解决 方案 是 ，3D 集成 电路 (3D IC) 。 通 过 
在 垂直 方向 实现 多 个 有 源 “ 层 ”的 工艺 ， 益 处 显著 。 全 局 线 网 将 大 大 缩短 ， 互 连 
带宽 将 大 大 提升 ， 延 迟 将 显著 减 小 。 大 量 的 低 延 迟缓 存 将 被 应 用 ， 智 能 物理 设计 将 


了 可 实现 的 路 径 ， 而 且 不 需要 传统 的 按 比 例 缩 小 。 这 是 未 来 的 一 个 至 关 重 要 的 
机 会 。 

美国 国防 部 先进 研究 项 目 局 (DAPRA) 在 许多 年 前 就 意识 到 3D IC 工艺 的 重 
要 性 ， 并 对 于 此 领域 中 具有 军用 相关 性 和 应 用 洪 质 的 项 目 进 行 了 仔细 的 筛选 和 资 
助 。 这 种 工艺 也 有 许多 潜在 的 商业 价值 。 针 对 智能 成 像 器 、 异 质 3D SERIES HR 
字 性 能 提升 ，DAPRA 的 微 系 统 技术 办 公 室 近年 启动 了 一 系列 基于 3D IC 的 项 目 。 
本 书 中 很 多 章 市 的 研究 结果 是 由 DAPRA 在 3D IC 领域 赞助 的 推动 下 实现 的 。 

3D 集成 电路 技术 现在 尚 处 于 早期 阶段 ， 有 些 工艺 刚刚 实现 而 更 多 的 正在 开发 
过 程 中 。 然 而 ， 它 的 潜力 如 此 之 大 以 至 于 一 个 专注 的 团队 已 经 开始 认真 研究 和 3D 
IC 相关 的 EDA、 设 计 以 及 架构 问题 ， 这 些 研究 均 已 在 本 书 中 详细 总 结 。 第 工 章 由 
KE IBM 公司 ， 对 设计 和 工艺 均 很 擅长 的 专家 很 好 地 介绍 了 这 个 领域 。 第 2 章 由 
来 自 IBM 公司 的 工艺 研究 者 提供 了 精彩 的 3D IC 关键 工艺 总 结 ， 必 将 使 任何 设计 者 
和 架构 工程 师 受 益 。 第 3 ~6 章 由 加 利 福 尼 亚 大 学 洛杉矶 分 校 (UCLA) 和 明 尼 苏 
达 大 学 的 研究 者 阐述 了 3D IC 设计 自动 化 (EDA) 的 重要 问题 。 这 些 章节 所 涉及 的 
关键 问题 包括 热 、 电 气 和 布局 的 管理 方法 ， 其 挑战 是 在 建 模 和 物理 设计 流程 期 间 的 
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一 个 多 层 电子 堆栈 。 第 7 ~9 章 介绍 了 3D 设计 问题 ， 包 括 由 佐治 亚 理 工学 院 的 专 
家 介绍 的 3D 处 理 器 设计 ， 由 宾夕法尼亚 州立 大 学 的 专家 介绍 的 3D 片上 网 络 
(NoC) 架构 ， 以 及 由 密歇根 大 学 和 英特尔 公司 的 专家 介绍 的 高 能 效 服务 器 设计 的 
3D 架构 研究 。 本 书 最 后 由 宾夕法尼亚 州立 大 学 的 专家 介绍 了 对 3D IC 技术 潜在 成 
本 优势 的 系统 级 分 析 。 

像 我 前 面 提 到 的 ， 我 们 生活 在 一 个 大 变革 的 时 代 。 这 些 变化 让 人 惊 惧 ， 因 为 像 
摩尔 定律 这 种 长 期 证 明 的 预测 和 规律 不 再 有 效 了 。 然 而 挑战 的 时 刻 也 是 尝试 新 想法 
的 绝 佳 机 会 。 

3D 集成 电路 技术 就 是 这 样 一 个 新 想法 。 本 书 将 成 为 重要 的 先锋 角色 ， 引 领 研 
完 人 员 和 和 集成 电路 工艺 进入 这 一 全 新 的 领域 。 


DARPA 微 系统 技术 办 公 室 
Michael Fritze 博士 ， 于 弗吉尼亚 州 阿 灵 顿 ，2009 #3 4K 
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对 于 一 个 观察 者 来 说 ， 纽 约 市 在 集成 电路 设计 人 员 心 目 中 有 一 个 特殊 的 位 置 。 
曼哈顿 结构 ， 模 仿 了 著名 的 街区 和 街道 ， 常 规 应 用 于 物理 设计 : 在 此 范例 下 ， 所 有 
的 形状 被 拆 分 成 矩形 ， 每 条 线 网 都 垂直 或 平行 于 其 他 线 网 。3D 集成 电路 的 出 现 将 
这 一 规律 扩展 到 曼哈顿 的 另 一 个 显著 特点 ， 即 它 的 摩天 大 楼 ， 原 因 是 IC 向 上 搭建 ， 
有 源 器 件 层 扒 释 在 一 起 。 更 准确 地 说 ， 不 再 像 传统 的 2D IC 工艺 仅 有 一 个 带 有 有 源 
器 件 层 的 衬 底 和 此 层 之 上 的 几 层 互 连 线 ,3D IC 将 多 个 芯片 层 堆 琶 在 一 起 。 这 提升 
了 硅 实 际 空间 的 利用 率 ， 并 使 在 堆 又 中 使 用 高 效 的 通信 结构 (就 像 摩天 大 楼 的 电 
梯 ) 成 为 可 能 。 

从 主流 的 2D 规范 到 3D 显然 不 是 一 小 步 : 在 不 止 一 个 方面 ， 这 种 改变 都 增加 
了 一 个 新 的 IC 设计 维度 。 三 维 设计 需要 创新 的 工艺 和 制造 技术 来 可 靠 地 、 经 济 地 
将 多 层 电 路 堆 倒 在 一 起 ， 需 要 设计 方法 从 电路 层次 到 架构 层次 均 能 充分 利用 3D 的 
优势 ， 需 要 计算 机 辅助 设计 (CAD) 技术 能 在 设计 的 所 有 阶段 分 析 和 优化 电路 。 
在 之 前 的 几 年 中 ， 随 着 3D 工艺 技术 逐步 成 熟 ，3D 集成 电路 已 经 实现 ， 该 领域 已 
经 引起 了 研究 关注 的 大 爆发 。 本 书 的 目的 就 是 捕捉 当前 最 先进 的 技术 并 向 读者 综合 
地 介绍 当前 制造 工艺 、 设 计 方法 、 计 算 机 辅助 设计 (CAD) 技术 的 进展 。 本 书 的 
一 部 分 内 容 由 该 领域 最 前 沿 的 研究 构成 ， 细 致 探讨 了 设计 3D 集成 电路 的 挑战 与 
HLE o 

3D 集成 电路 的 历史 要 向 前 追溯 很 多 年 ， 最 旱 可 追溯 到 几 十 年 前 日 本 政府 资助 
的 一 个 重要 研究 项 目 。 只 是 在 最 近 几 年 ，3D 集成 电路 才 吸 引 了 关注 ， 如 今 被 认为 
是 一 种 可 实现 的 选项 。 时 至 今日 ， 主 要 的 半导体 工业 巨头 们 都 在 该 领域 投入 了 大 量 
的 资源 。 因 此 ，3D 技术 正 处 在 一 个 出 现 重大 飞跃 的 平衡 点 上 。 该 技术 的 内 容 和 动 
机 在 第 1 章 中 介绍 。 

3D 集成 电路 覆盖 领域 广 ， 现 有 的 多 种 3D 技术 为 成 本 和 性 能 的 折 中 提供 了 广 
阔 的 空间 。 这 包括 多 个 芯片 置 于 一 个 衬 底 上 的 硅 基 类 工艺 ， 中 间 层 间距 为 数 百 微米 
量 级 的 蝇 圆 级 堆 营 ， 以 及 中 间 层 间距 为 数 十 微米 量 级 的 薄 芯 片 / 唱 圆 堆 琶 。 前 两 者 
的 优点 是 可 以 实现 紧密 封闭 和 更 高 层 的 集成 ,缺点 是 常常 造成 层 间 通 信 的 大 量 性 能 
开销 。 最 后 一 种 ,拥有 更 小 的 层 间 距 ， 不 仅 增加 了 集成 层 数 ,而 且 利 用 了 能 实际 显 
著 改 善 等 效 2D 实现 的 新 结构 。 这 样 先进 的 技术 是 本 书 的 重点 ， 此 类 技术 的 前 沿 示 
例 在 第 2 章 中 有 详细 阐述 。 

在 构建 3D 结构 的 过 程 中 ， 大 量 的 问题 需要 CAD 工具 和 设计 技术 解决 。 从 2D 
到 3D 的 变化 基本 上 属于 拓扑 结构 的 变化 ， 因 此 为 3D 芯片 设计 布局 规划 、 布 局 及 
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布线 工具 是 非常 重要 的 。 此 外 ，3D 芯片 单位 尺寸 内 比 对 应 的 2D 芯片 需要 更 大 量 
的 电流 ， 导 致 了 严重 的 热 和 电源 传输 的 瓶颈 。 用 于 3D 的 任何 物理 设计 系统 必须 包 
含 热 分 析 部 分 ， 并 且 必 须 关 注 电 源 传输 网 络 的 构建 问题 。 所 有 这 些 问 题 在 第 3 ~6 
章 中 着 重 进 行 了 说 明 。 

在 系统 层次 方面 ，3D 架构 可 用 于 构建 新 结构 。 对 于 传感器 芯片 ， 传 感 器 可 以 
置 于 顶层 ， 模 拟 放 大 器 置 于 其 下 ， 数 字 信 号 处 理 电路 再 下 一 层 。 这 种 思路 已 经 在 概 
念 和 实现 层次 上 应 用 于 图 像 传 感 器 和 天 线 阵列 了 。 对 于 处 理 器 设计 ，3D 结构 使 存 
储 器 可 以 堆 合 在 处 理 器 之 上 ， 从 而 允许 两 者 间 高 速 的 通信 ， 这 将 解决 此 类 系统 中 最 
主要 的 一 个 性 能 瓶颈 。 第 7 ~9 章 讨 论 了 几 个 系统 设计 的 例子 。 最 后 ， 第 10 章 给 出 
了 一 种 3D 电路 成 本 分 析 的 方法 。 

我 们 希望 本 书 能 带 给 读者 当前 3D IC 设计 的 整体 状况 和 该 技术 未 来 的 展望 。 


Sachin Sapatnekar 
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Kerry Bernstein 

就 像 钢 架构 突然 让 摩天 大 楼 超越 了 石 制 建筑 的 12 层 极限 ” 一样， 四 项 关键 工 
艺 的 进步 让 20 年 前 的 梦想 家 (如 美国 的 Jim Meindl 和 日 本 的 Mitsumasa Koyanagi ) 
提出 的 3D 集成 电路 的 概念 ”能 够 实现 。 这 些 要 素 是 : (1) 低温 绑 定 ; (2) 层 到 
层 的 移动 和 对 齐 ; (3) 层 间 的 电气 连接 ; (4) 一 种 有 效 的 发 布 工艺 。 这 些 将 是 建 
设 我 们 新 电子 摩天 大 楼 的 起 重 机 。 与 此 同时 ， 目 前 创建 这 样 非凡 的 电子 结构 的 动机 
仍然 不 其 了 然 。 这 个 观点 最 终 出 现在 一 篇 非 正式 杂志 的 文章 中 ”， 而 其 提出 的 具 
有 先 见 之 明 的 想法 没 被 立刻 发 现 。TI 公司 的 Doug Matzke 在 1997 年 发 现 信号 的 局 
域 性 将 最 终 限 制 处 理 硕 的 性 能 和 吞吐 量 增 益 。 该 发 现 以 光速 般 在 媒体 中 传 开 。 很 明 
显 在 当时 线 网 延 时 的 改进 跟 不 上 天 件 的 改进 速度 ， 为 了 实现 同步 的 性 能 提升 ， 互 连 
需要 持续 地 引入 新 的 材料 和 结构 。 事 实 上 ， 历 史 已 经 证 明了 这 个 命题 的 正确 性 。 图 
1-1 示 出 了 1995 年 以 来 互 连 问题 上 的 压力 。 在 图 中 ， 圆 圈 代 表 在 一 个 周期 内 可 访 
问 到 的 区 域 ， 很 明显 它 的 半径 随 着 时 间 而 缩小 ， 这 意味 着 更 少 的 片上 资源 可 以 在 一 
个 周期 内 到 达 。3 种 趋势 共同 导致 其 半径 的 单调 递减 : 
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TI 
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图 1-1 单 处 理 需 器 芯片 延迟 的 理想 风暴 图 : (1) 线 网 不 按 比 例 缩小 ; (2) 芯片 面积 增长 ; 
(3) 更 短 的 FO4 步骤 。 跨 芯片 延迟 的 功 耗 增 大 “ 


1) 线 网 不 按 比例 缩小 。 排 除 冶 金 学 家 和 线 上 后 端 工 程 师 的 不 懈 努 力 ， 在 最 好 
的 情 疙 下 ， 芯 片 的 互 连 延 时 将 在 下 一 代 世 片 中 保持 不 变 。 在 每 代 芯 片 中 都 加 入 了 新 
材料 ， 比 如 更 低 介 电 常数 的 电解 质 、 铜 和 更 多 的 金属 层 的 情况 下 ， 这 很 说 明 问题 。 
考虑 到 同一 时 期 的 占 件 性 能 通过 按 比例 缩小 得 以 提升 ， 可 访问 半径 注定 缩小 。 
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2) 芯片 面积 增长 。 如 果 每 代 芯 片 的 面积 都 随 按 比例 缩小 的 轨迹 变化 而 相应 地 
缩小 ， 器 件 和 线 网 延 时 的 不 平衡 问题 将 更 加 严重 。 实 际 的 趋势 反而 相反 ， 由 于 计算 
机 吞吐 量 的 提高 ， 其 结构 的 改进 ， 使 得 相对 芯片 面积 一 直 增加 。 即 使 在 媒介 中 以 光 
速 传送 ， 信 和 号 仍 需 要 更 长 的 时 间 以 穿 过 整个 芯片 。 即 使 芯片 面积 没有 增长 ， 设 计 将 
被 努力 提升 以 达到 与 上 一 代 工 艺 时 相同 的 周期 时 间 约 束 。 

3) 更 短 的 周期 。 以 上 命题 在 周期 时 间 约 束 没有 保持 固定 的 情况 下 持续 减 小 ， 
变 复 杂 了 。 但 为 了 更 充分 地 利用 片上 资源 ， 在 每 个 相 邻 的 代 之 间 ， 设 计 师 已 成 功 地 
实现 每 周期 减 小 相当 于 “4 肩 出 反 相 器 ”的 延 时 ， 使 得 流水 线 气 泡 将 不 会 像 在 更 长 
周期 时 间 下 一 样 严 重地 阻塞 片上 功能 单元 。 在 这 种 情况 下 ， 信 和 号 不 仅 需 要 在 未 改进 
的 线 网 上 走 更 远 ， 而 且 需 要 比 之 前 更 少 的 到 达 时 间 。 

图 1-1 中 示意 的 结果 说 明 ， 单 处 理 需 已 经 失去 了 在 一 个 周期 内 访问 整个 芯片 资 
源 的 能 力 。 一 种 补救 的 方式 是 在 单 处 理 硕 中 加 入 多 个 相同 的 资源 以 保证 至 少 其 中 一 
个 可 在 一 个 周期 内 访问 到 ， 而 这 让 问题 更 加 环 手 。 

以 上 示意 的 趋势 是 由 工业 数据 实际 证 实 的 。 图 1-2 示 出 了 在 过 去 10 年 中 及 之 
前 在 会 议 中 记录 和 发 布 的 处 理 融 的 面积 与 SpecInt2000 (一 种 微 处 理 器 性 能 的 测量 
指标 ) 的 性 能 比率 。 其 趋势 的 外 推 说 明 该 实现 是 存在 一 定 极限 的 。 
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图 1-2 面积 与 SpecInt2000 性 能 比 


尽管 结构 的 方式 可 使 性 能 提升 ， 但 这 种 方式 的 面积 费用 昂贵 ， 并 以 跨 芯片 信和 号 
延 人 为 代价 。 一 个 费用 的 例子 如 图 1-3 所 示 。 随 着 每 周期 的 级 (stage) 数 的 下 降 
( 见 上 述 第 3 点 描述 ) ， 处 理 器 必须 存储 大 量 的 中 间 结 果 ， 因 此 需要 更 多 的 锁 存 器 
和 寄存 器 。Srinivasan 展示 出 了 对 于 固定 的 累计 逻辑 深度 ， 随 着 每 周期 FO4 等 效 延 


累计 锁 存 器 数量 
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累计 FO4 深 度 (逻辑 + 锁 存 器 费用 ) 


图 1-3” 锁 存 器 和 流水 线 深度 的 超 线性 增长 趋势 O 2002 IEEE. 
来 自 本 章 参考 文献 [7] ， 并 已 获得 许可 


时 级 数 的 下 降 ， 所 需 的 寄存 器 增加 …。 增 加 的 寄存 器 不 仅 消 耗 面积 ， 而 且 也 需要 
占用 周期 中 更 多 的 比率 以 满足 时 序 边 界 。 

尽管 存在 提 到 的 以 上 限制 ， 但 定性 地 解释 工业 界 通过 工艺 按 比 例 缩小 获得 成 功 
的 某 些 原因 非常 合适 。 随 着 在 电学 上 资源 不 断 远 离 ， 微 处 理 器 结构 开始 青睐 多 核 ， 
如 SMP 机 ， 其 中 每 个 核 都 是 一 个 相对 简单 的 处 理 器 ， 仅 顺序 执行 指令 。 在 这 些 多 
核 系 统 中 ， 独 立 处 理 器 核 分 担 了 它们 更 纠结 的 单 处 理 器 前 辈 大 部 分 复杂 度 。 我 们 可 
以 简单 讨论 一 下 ， 在 芯片 输入 输出 带宽 可 以 提供 每 个 核 所 需要 数据 的 情况 下 ， 增 加 
的 片上 处 理 融 核 维持 了 微 处 理 需 性 能 改进 。 事 实 上， 这 在 多 核 系 统 的 早期 是 正确 
的 。 并 且 ， 人 恰恰 在 器 件 延 时 持续 改善 、 互 连 性 能 已 成 为 设计 者 的 重要 限制 的 时 候 ， 
多 核 处 理事 正 好 主 千 了 高 性 能 处 理 领 域 。 这 不 是 偶然 。 

如 在 图 1-4 中 定性 地 示 出 的 ， 多 核 方式 将 继续 提供 性 能 改善 ， 如 图 中 黑色 线 所 
示 ， 直 到 互 连 融 宽 再 次 成 为 性 能 瓶颈 。 在 这 点 上 来 说 ， 克 服 带宽 限制 将 需要 根本 的 
模式 改变 ， 超 越 了 在 2D 设计 中 成 功 改善 互 连 延 迟 的 仅 改 变 材 料 的 方式 。3D 集成 
正好 提供 了 这 种 能 力 : 一 旦 采用 ， 这 项 技术 将 继续 扩展 微 处 理 器 吞吐 量 直到 其 优势 
饱和 ， 如 图 1-4 中 上 方 虚线 所 示 。 若 没有 3D 技术 ， 我 们 将 更 时 遭遇 多 核 处 理 技 术 
的 局 限 ， 如 图 1-4 中 较 低 的 虚线 所 示 。 这 个 局 限 早 在 2001 ERRAT o 
文献 经 常 被 引用 : 人 们 可 以 “向 上 ”或 “向 外 ” 按 比 例 规格 化 未 来 的 设计 ， 同 时 
互 连 必定 是 设计 上 不 可 接受 的 局 限 。 文 献 中 的 图 1-5 示 出 了 将 需要 不 现实 的 90 个 
布线 层 的 设计 或 需要 保持 每 个 宏 模 块 1000 万 个 器 件 以 下 ， 来 保证 可 布线 的 设计 。 
这 两 种 解决 方案 都 不 可 行 。 

让 我 们 回 过 头 审 视 让 3D 集成 如 此 及 时 和 有 效 的 特定 结构 问题 。 我 们 从 检查 处 
理 器 用 来 做 什么 和 如 何 组 织 它们 使 其 最 有 效率 开始 。 
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图 1-5 早期 3D 预测 : 向 上 按 比 例 规格 化 (“2005 年 后 ， 不 可 思议 的 布线 层 数 。 ) 向 外 按 比 
例 规格 化 (“如 果 门 / 宏 模 块 小 于 10M 时 可 支配 互 连 ” ) ^ O 2001 IEEE. XÁ Interconnect Limits on 
Gigascale Integration (GSI) in the 21st Century J. Davis, et al. , Proceedings of the IEEE, 

Vol 89 No 3, March 2001， 已 获得 许可 
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念 移动 到 下 一 个 状态 的 状态 机 。 机 融 的 状态 由 其 寄存 器 的 容量 决定 : 其 移动 到 的 机 
华 状 态 由 在 寄存 融 间 执行 的 指令 指定 。 处 理 过 程 通过 在 取 到 较 接 近 处 理 器 处 的 系列 
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数据 上 执行 的 系列 指令 集 实 现 。 如 果 所 需 的 数据 不 在 本 地 存储 ， 对 其 的 调用 被 称 为 
“未 命中 (miss) ”。 称 为 处 理 器 工作 负载 的 一 串 指令 在 本 质 上 通常 是 科学 型 或 者 经 
济 型 的 。 这 两 种 不 同类 型 的 工作 负载 在 利用 处 理 絮 资源 时 大 相 径 星 。 类 似 3D 结构 
的 启用 在 通用 处 理 咒 方面 是 有 用 的 ， 条 件 是 通用 处 理 融 允许 一 个 给 定 的 设计 能 够 很 
好 地 收回 两 种 类 型 的 操作 。 

由 于 性 能 组 分 的 重要 性 ,我 们 应 检查 微 处 理 副 耕 吐 量 延 时 的 产生 者 们 。 
图 1-6a 示 出 了 微 处 理 带 的 基本 元 件 。 图 中 的 指令 单元 (“I- Unit”) PERSP AE H 
令 到 处 理 带 ， 执 行 单元 (“EE- Unit”) 执行 这 些 指令 ， 同 时 一 级 缓存 阵列 存储 操作 
数 ”。 如 果 执 行 单元 没有 延迟 保护 操作 数 ， 所 需 回 渊 指令 的 周期 数 将 在 图 1-6b 最 
低 线 处 被 捕捉 ， 并 标记 上 - busy (执行 忙 )。 指 令 单 元 的 数据 仍 需 从 一 级 缓存 中 再 次 
取出 。 一 级 缓存 此 时 极 有 布 望 被 预期 所 需 数据 十 满 。 在 理想 无 限 缓存 的 情况 下 ， 绥 
存 无 限 大 并 且 包 含 每 个 可 能 被 请 求 的 字 。 此 时 的 性 能 将 由 第 2 条 蓝 色 线 确定 。 蓝 色 
线 包 含 了 微 处 理 带 延 时 和 到 一 级 缓存 的 访问 时 间 。 然 而 一 级 缓存 毕竟 是 有 限 的 ， 同 
时 被 请 求 的 数据 也 过 于 经 党 地 没 被 正确 预测 并 预 装载 到 一 级 缓存 之 中 。 每 条 指令 所 
需 的 指令 周期 在 “有 限 缓存 ”的 现实 下 包含 了 所 需 获 取 数 据 的 未 命中 时 间 损 失 。 
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图 1-6 处 理 融 性 能 组 成 。 延 时 的 决定 因素 依次 为 a) 理想 处 理 器 ; b) 到 本 地 缓存 的 访问 
和 缓存 的 重 填 充 @ 2006 IEEE 来 自 本 章 参 考 文献 [3] ， 已 获得 许可 


不 论 科 学 型 或 经 济 型 ， 微 处 理 器 的 性 能 同时 依仗 其 有 效 数 据 输送 能 力 和 高 性 能 
We JS PE DHE In) ei ae be HES EDS | 、 带 宽 和 缓存 阵列 相关 的 数据 。 数 据 请 求 到 
其 有 效 的 延 时 称 为 延迟 。 片 上 的 临时 缓冲 存储 器 减少 了 部 分 片 下 主 存储 器 数据 传输 
震 求 。 审 宽 人 允许 在 任意 给 定时 间 内 取 更 多 的 数据 到 片上 。 最 重要 的 ， 这 3 个 处 理 器 
存储 带子 系统 的 属性 是 可 交换 的 。 

当 片 上 系统 缓存 不 能 在 片上 继续 增加 时 ， 改 善 带宽 和 到 主 存储 器 延迟 的 技术 就 
变 得 非常 重要 。 图 1-7 示 出 了 假定 的 情况 ， 其 中 在 给 定 处 理 器 上 运行 的 线程 或 独立 
计算 进程 的 数量 翻番 。 为 保持 未 命中 率 恒定 ， 可 观察 到 提供 给 芯片 的 数据 量 必须 增 
加 ”， 和 否则 线程 数量 不 可 能 增加 。 因 为 将 出 现 更 多 未 命中 并 使 任何 潜在 优势 失去 
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意义 。 如 图 1-7 底部 左 侧 所 示 ， 为 新 线程 添加 第 2 个 缓存 需要 带宽 翻番 。 换 句 话 
说 ， 如 果 带 宽 没 有 翻番 ,那么 每 个 缓存 必须 翻 4 倍 来 弥补 每 线程 的 网 络 带宽 损失 ，， 
如 图 1-7 底部 右 侧 所 示 。 假 定 未 命中 率 与 片上 缓存 面积 的 二 次 方 根 成 正比 增加 ， 则 
带宽 和 存储 器 面积 的 可 交换 度 可 归纳 为 





如 果 保 持 B 为 常数 ， 
那么 C 将 发 生 什么 变化 ? 





图 1-7 ”线程 数 翻番 时 ， 如 果 总 带宽 保持 不 变 ， 缓 存 的 容量 需要 翻 两 番 才 能 保持 每 线程 与 
之 前 相近 的 性 能 @ 2006 IEEE. 来 自 本 章 参 考 文献 [3] ， 已 获得 许可 


jT at2"m xm) i- 
式 中 ，7 代表 线程 数 ; BAK, 5 代表 片上 有 效 缓存 数 ; 指数 a Al b 为 假定 的 
等 价 〈 此 处 为 固定 的 未 命中 率 ) 的 任意 值 的 组 合 ， 代 表 带 宽 和 存储 需 面 积 的 可 和 替 
换 关 系 。 假 定 昂 贯 的 未 命中 率 与 右 侧 第 二 项 的 存储 融 相 关 ， 并 随 囊 宽 变 化 ， 像 3D 
集成 提供 的 一 样 ， 其 在 多 线程 的 未 来 处 理 需 中 是 有 洪 在 优势 的 。 
现在 我 们 考虑 在 多 种 不 同类 型 的 工作 负载 下 未 命中 的 影响 。 科 学 型 工作 负载 就 
像 那些 大 型 科研 装置 一 样 ， 是 高 度 固 定 的 操作 模式 在 大 量 数据 集 上 执行 。 处 理 器 本 
地 缓存 阵列 需要 从 主 存储 融 获 取 的 数据 是 非常 容易 预测 和 连续 的 ， 并 且 人 允许 存储 央 
子 系统 以 最 少 的 说 明 、 中 断 和 错误 的 方式 将 数据 从 存储 器 缓存 送 到 处 理 咒 。 未 命中 
极 少 发 生 。 在 这 种 系统 中 ， 人 性 能 直接 与 将 数据 导 人 处 理 需 的 总 线 带宽 相关 。 该 总 线 
本 身 具 有 高 占用 率 并 时 刻 保持 满 状态 。 总 线 不 满 时 ， 系 统 吞 吐 量 实际 上 降低 了 。 田 
一 方面 ， 经 济 性 负载 具有 不 可 预测 性 和 不 固定 的 数据 模式 。 此 类 系统 通常 用 来 处 理 
多 种 多 样 的 处 理 任务 。 数 据 未 命中 经 常 发 生 ， 它 们 的 发 生 概 率 服从 泊 松 分 布 。 
图 1-8 示 出 了 以 每 两 次 未 命中 之 间 回 溯 指 令 数 为 自 变量 ， 总 未 命中 数 比 例 为 因 变 量 
的 曲线 图 。 虽 然 图 中 的 峰值 是 在 XX 轴 右 端 终 点 ,但 实际 上 未 命中 经 常 发 生 ， 且 这 
是 和 常识。 高 吞吐 量 需 要 低 总 线 占 用 率 以 实现 避免 总 线 在 未 命中 爆发 时 “ 卡 住 ”。 
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图 1-9 示 出 了 这 种 关系 并 展示 了 可 访问 低 占 用 率 总 线 对 经 济 型 处 理 器 来 说 多 么 草 
要 。 当 总 线 占用 率 超 过 30% ， 相 关 性 能 直线 下 降 。 


15 


未 命中 百分率 (%) 





30 
内 部 未 命中 距离 (# 指 两 次 未 命中 之 间 执 行 的 指令 数 ) 
图 1-8 ”以 每 两 次 未 命中 间 回 溯 指 令 数目 为 自 变 量 ， 总 未 命中 数 百分比 为 因 变 量 的 柱状 图 
© 2006 IEEE. 来 自 本 章 参 考 文献 [3] ， 已 获得 许可 
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图 1-9 相关 性 能 和 总 线 利用 度 O 2006 IEEE. 来 自 本 草 参 考 文献 [3] ， 已 获得 许可 


闸 而 言 之 ， 两 类 应 用 空间 都 需要 市 宽 , 但 原因 大 相 径 庭 。 假 定 处 理 器 经 常用 在 
通用 机 带 中 ， 而 该 机 融 同 时 用 于 科学 型 和 经 济 型 的 背景 设置 下， 那么 把 两 类 工作 都 
做 好 很 重要 。 当 一 类 技术 解决 方案 强调 其 中 一 种 时 ，3D 集成 由 于 其 带宽 优势 成 为 
一 种 常见 的 解决 方案 。 

如 图 1-6 所 示 ， 延 时 有 很 多 原因 ， 但 它们 全 部 不 同 程度 地 受 互 连 延 时 的 影响 。 
在 “无 限 缓存 场景 ”下 的 性 能 由 处 理 器 自身 的 执行 延 时 决定 。 当 然 ， 处 理 器 延 时 
本 身 随 互 连 延 迟 的 减 小 而 改进 ， 但 在 3D 成 功 成 为 存储 器 到 处 理 器 的 一 种 传输 方式 
时 ， 处 理 带 执 行 延 时 本 吴 改 进 很 小 。 在 有 限 缓存 场景 下 ， 在 我 们 必须 将 有 限 缓存 和 
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带宽 衍生 的 数据 延 时 考虑 在 内 ， 而 这 正 是 表明 3D 集成 正 处 有 用 之 时 。 在 图 1-10 
中 ， 我 们 看 到 当 单 核 、 双 核 和 四 核 处 理 器 在 3D 集成 工艺 实现 时 获得 的 改善 。 系 统 
中 与 结构 相关 的 性 能 一 直 增 长 直到 系统 被 获得 足够 数据 供应 的 点 ， 此 时 未 命中 率 得 
到 控制 。 超 出 这 一 点 ， 再 提供 更 多 带宽 就 没有 意义 了 。 读 者 们 应 该 注意 ， 该 饱和 点 
随处 理 器 核 的 增加 移动 得 越 来 越 远 。 意 义 在 于 ， 由 于 数据 传输 是 未 来 多 核 处 理 融 的 
重要 属性 ， 设 计 者 仍 将 保证 处 理 咒 核 的 性 能 持续 改善 。 


架构 性 能 ITPCC ( 归 一 化 ) 





带宽 GB/s ( 归 一 化 ) 


图 1-10 不 同 处 理 需 核 的 带宽 和 延迟 边界 


3D 集成 的 中 心 问题 是 需要 面 对 一 种 最 终 总 线 的 概念 。“ 总 线 占 用 ”是 一 个 问 
题 。 该 问题 的 症结 如 下 : 得 到 一 条 处 理 需 所 需 数据 的 时 间 决 定 了 系统 数据 延迟 。 像 
我 们 已 经 了 解 到 的 ， 延 退 直 接 影响 了 等 待 该 数据 的 处 理 需 的 性 能 。 另 一 个 ， 总 线 相 
关 的 不 多 察觉 的 性 能 影响 仍然 在 总 线 被 数据 传输 占用 时 出 现 。 如 果 运 气 好 ， 得 到 的 
整 条 数据 线 是 所 需 的 和 有 效 的 。 然 而 常常 只 有 这 条 线 的 第 一 部 分 是 有 效 的 。 由 于 数 
据 必 须 通过 “单线 地 址 累加 ”进入 处 理 需 ， 意 味 着 最 少 读 和 一 整 条 数据 线 。 微 处 
理 融 殿 构 师 困 扰 于 一 次 应 该 从 主 存储 需 中 获取 多 长 的 数据 线 。 如 果 太 短 ， 所 需 的 总 
线 容量 可 以 更 精确 的 确定 ,但 微 处 理 带 本 地 缓存 中 所 含 数据 的 片上 地 址 目录 空间 将 
非 党 大。 而 太 长 的 数据 线 削 减 了 系统 中 预订 一 保持 和 存储 器 管理 成 本 ， 但 在 并 发 未 
命中 需要 获取 新 地 址 时 ， 应 使 总 线 忙 于 下 载 更 长 的 数据 线 。 这 中 间 是 矛盾 的 。 数 据 
线 的 长 度 因 此 根据 微 处 理 需 被 调用 执行 特定 应 用 程序 时 工作 负载 的 分 布 统 计 确 定 。 
图 1-11 示 出 了 该 动态 关系 。 当 一 个 事件 引发 缓存 未 命中 时 ， 存 储 器 子 系统 迅速 向 
缓存 传 回 数据 的 过 程 是 存在 延 时 的 ”。 最 终 ， 带 着 由 数据 线 首 边沿 到 达 定 义 延迟 
的 数据 开始 抵达 。 然 而 直到 尾 边 沿 抵达 前 ， 即 总 线 在 整 条 数据 线 进 入 完成 前 不 再 空 
有 内。 总 线 被 占用 的 时 间 越 长 ， 下 一 个 未 命中 被 处 理 需 等 待 的 时 间 越 长 。3D 的 价值 
在 于 更 大 的 市 宽 (通过 更 宽 的 总 线 ) 减轻 了 由 于 尾 边沿 影响 引发 的 延迟 。 

接着 ， 需 要 指出 工业 趋势 显现 出 每 代 产品 中 处 理 器 核 的 数量 以 二 次 方 率 增 长 。 










处 理 器 事件 


m 时 间 
事件 缓存 线 其 余部 分 
FREI 
数据 数据 


图 1-11 缓存 未 命中 占用 总 线 直到 所 需 的 整个 缓存 线 传输 完毕 ， 同 时 阻塞 了 其 后 的 数据 请 求 
© 2006 IEEE. 来 自 本 章 参考 文献 [3] ， 已 获得 许可 


图 1-12 示 出 了 微 处 理 器 时 钟 频率 〈 其 驱动 数据 需求 ) 、 存 储 希 时 钟 频 率 和 存储 天 
总 线 带宽 增长 率 的 差异 。 数 据 总 线 频率 传统 上 随 MPU 频率 以 1:2 的 比率 变化 ， 每 
18 ~24 个 月 翻番 。 而 数据 总 线 带宽 以 低 得 多 的 速率 〈 注 意 纵 轴 是 对 数 坐标 ) 增长 ， 
说 明 数 据 总 线 传 输 率 的 主要 改善 源 于 频率 提高 。 当 且 仅 当时 钟 频率 变 慢 时 ， 除 非 我 
们 替换 总 线 的 带宽 技术 ， 不然 数据 总 线 容量 必然 超标 。 可 以 说 囊 宽 的 杠杆 作用 是 设 
计 者 在 提高 处 理 任 务 率 时 所 强调 的 结构 范例 序列 中 的 最 后 一 个 。 早 些 时 候 的 手段 倾 
向 于 强调 片上 的 其 他 资源 ， 例 如 像 图 1- 13 所 示 的 ， 增 加 所 需 的 寄存 器 数目 。 现 如 
今 ， 轮 到 了 市 锅 。 再 次 集成 到 Z 平面 推迟 了 互 连 相 关 的 限制 从 而 延长 了 经 典 的 按 
比例 缩小 。 但 与 此 同时 ， 有 些 情况 发 生 了 实质 改变 。 本 书 其 他 部 分 的 探索 给 出 了 向 
一 个 维度 扩展 的 解决 方案 。 对 于 认 知 生物 学 函数 而 言 ， 该 方案 是 自然 已 展示 出 其 
必要 性 的 解决 方案 。 


史上 微 处 理 器 有 总线 频 率 和 显存 带宽 度 

(高 性 能 ) 存储 器 总 线 时 钟 
D pament & | amd 
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Al 1-12 频率 驱动 的 数据 速率 : 数据 总 线 频率 随 MPU 频率 以 1:2 的 比率 变化 , 每 18 -24 个 月 翻 
一 番 ， 而 数据 总 线 玮 宽 只 是 较 平 组 地 增长 。 数 据 总 线 传输 速率 基本 上 通过 总 线 频 率 按 比例 缩小 ; 
当时 钟 增 长 减缓 时 ， 总 线 数 据 速 率 增 长 同时 放 绥 

总 结 所 述 结构 问题 ， 以 下 几 点 应 牢记 : 
。 频 率 不 再 增长 。 
m 逻辑 比 存储 器 总 线 更 快 地 按 比 例 缩小 。 
理 器 时 钟 和 总 线 时 钟 消耗 带宽 。 ` 


EDA、 设 计 和 微 体 系 结构 
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对 称 的 多 线程 


Pere 多 核 处 理 器 
测 执行 单元 A 多 入， 
乱 序 执行 

寄存 器 重 命名 


处 理 回 性 能 BE 





图 1-13 功 耗 系列 : 结构 性 能 分 布 图 


e 更 多 的 指令 预测 使 预 取 和 尝试 次 数 加 倍增 加 。 
m 错误 的 猜测 增加 了 未 命中 容量 。 

e. 减 小 数据 线 长 度 在 缓存 增长 时 受到 目录 限制 。 
m 因此 ， 加 倍数 据 线 长 度 使 总 线 容 量 翻番 。 

e 每 块 世 片上 处 理 器 核 数目 N 随 每 代 更 替 而 增加 。 
m 使 片 下 总 线 任务 以 N/2 x Sqrt (2) 倍增 长 。 

e 由 此 导致 每 处 理 器 核 的 更 多 的 线程 和 虚拟 化 的 增加 。 
m 使 片 下 总 线 任务 以 V 倍增 长 。 

e 处 理 器 /SMP 总 数 在 增加 。 

m 使 整个 系统 的 队列 恶化 。 

增加 人 处理 带 核 /芯片 数量 增加 了 带宽 需求 。 

m 任务 回溯 率 与 数据 传输 的 相关 性 增加 。 

um 任务 回溯 率 与 单 处 理 器 性 能 的 相关 性 减 小 。 

以 上 的 讨论 把 3D 集成 技术 作为 一 个 整体 。 实 际 上 ， 我 们 以 上 述 展 示 出 的 结构 
优势 将 随 着 3D 技术 的 进步 而 逐步 实现 。“ 三 维 ” 实 际 上 指 一 系列 工艺 和 能 力 ， 其 
及 时 发 展 出 更 小 的 通 孔 间距 ， 更 高 的 通 孔 密度 和 更 低 的 通 孔 阻抗 。 图 1- 14 给 出 了 
一 旦 达到 某 能 力 靖 值 ， 可 应 用 3D 技术 的 分 布 示 意图 。 

在 本 书 随 后 的 部 分 中 ， 几 位 3D 集成 专家 将 教 我 们 怎样 不 仅 在 前 面 讨 论 的 存储 
外 于 系统 中 ， 而 且 在 任意 新 的 、 创 新 的 应 用 程序 中 利用 该 技术 。 未 来 工作 的 挑战 是 
巨大 的 ， 工 艺 和 技术 制程 固然 需要 实现 ,但 所 需 的 潜在 基础 也 不 可 忽视 : EDA, W 
试 、 可 靠 性 、 封 装 ， 以 及 其 他 我 们 在 2D 集成 电路 认为 理所当然 可 以 工作 的 配备 技 
术 。 但 在 执行 好 的 情况 下 ， 得 到 的 计算 密度 和 它们 支持 的 新 能 力 将 是 惊人 的 。 即 使 
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: 维 一 体 化 技术 综述 


普通 DRAM 堆 秋 mmm 应 用 
RHES | 7-8 
3D& Pr b PE e : 
He LL. His 
d^ HES 3D 集 成 
通 孔 密度 / 
(pin/cm*) 1E2 EE3 | 1E4 IES 1E6 
通 孔 大 小 /um 200 50 10 | 0.100 
年 (£3) 1990 1995 2000 2010 2020 
支持 频率 /Hz 1E6 1E7 1E8 :1E9 


图 1-14 3D 集成 技术 图 谱 


仅仅 之 前 在 本 章 讨论 的 存储 器 管理 的 例子 中 ，3D 技术 保证 了 的 大 量 存 储 的 实时 访 
问 将 被 视 为 我 们 工业 的 分 水 岭 。 | 

本 书 的 后 续 部 分 从 第 2 FE 3D 工艺 的 简要 介绍 开始 ， 其 作为 设计 者 理解 3D hl 
造 方法 (对 3D 工艺 全 面 的 细节 ， 可 以 参看 本 章 文献 [4]) 的 简要 参考 。 本 书 的 下 
一 部 分 将 重点 关注 3D 集成 电路 设计 的 自动 化 工具 ， 包 括 热 分 析 和 电源 传输 (第 3 
章 ) ， 基 于 热 分 析 的 3D 布局 规划 (第 4 章 )， 基 于 热 分 析 的 3D 布局 (第 5 38), 
以 及 基于 热 分 析 的 3D 布线 (第 6 章 )。 随 后 是 3D EDA 工具 的 讨论 ， 后 三 章 给 出 
了 3D 微 处 理 器 设计 (5873€), 3D 片上 网 络 芯 片 结构 (第 8 章 )， 以 及 用 于 高 
效 服 务 器 设计 的 3D 堆 秋 应 用 (第 9 章 )。 最 后 本 书 以 关于 3D 集成 电路 技术 成 本 影 
响 的 第 10 章 为 结束 。 
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第 2 章 3D 集成 电路 工艺 考量 


Albert M. Young Steven J. Koester 

集成 电路 产品 尺寸 小 型 化 和 功能 全 面 性 的 发 展 趋势 有 力 地 推动 了 3D 集成 电路 
技术 的 快速 发 展 ， 并 使 其 具有 广阔 的 市 场 前 景 。 虽 然 3D 集成 电路 工艺 还 没有 在 整 
个 产业 中 实现 标准 化 ,但 对 于 3D 集成 电路 的 设计 者 ， 及 时 了 解 3D 集成 电路 的 工 
艺 发 展 趋势 及 其 带 来 的 盘 亏 和 利弊 ， 至 关 重 要 。 在 本 章 ， 我 们 涉及 设计 者 关心 的 基 
本 工艺 问题 ， 包 括 各 层 的 堆肥 方向 ， 各 层 的 对 齐 ， 粘 合 接触 面 的 设计 ， 硅 通 孔 的 厌 
寸 ， 以 及 与 CMOS 工艺 的 集成 。 以 上 这 些 都 是 与 设计 直接 相关 的 问题 ， 对 设计 者 在 
实际 工作 中 选择 何 种 3D 集成 电路 工艺 ， 以 及 在 给 定 的 3D 集成 电路 工艺 下 电路 的 
优化 设计 非常 重要 。 


2.1 J 


集成 电路 产品 斥 才 小 型 化 和 功能 全 面 性 的 发 展 趋势 有 力 地 推动 了 3D 集成 电路 
技术 的 快速 发 展 ， 并 使 其 具有 广阔 的 市 场 前 景 。 虽 然 3D 集成 电路 工艺 还 没有 在 整 
个 产业 中 实现 标准 化 ， 但 几乎 所 有 3D 集成 电路 工艺 都 具有 以 下 关键 技术 : 垂直 硅 
Xi fL ne. nxor. 、 基 于 背面 工艺 的 唱 圆 减 薄 。 我 们 希望 本 章 可 以 使 设计 者 更 好 
地 了 解 3D 集成 电路 工艺 的 发 展 趋势 ， 因 为 此 发 展 趋势 对 3D 集成 技术 的 进步 和 电 
路 设计 本 和 喘 均 有 影响 。 

在 过 去 的 几 十 年 中 ， 我 们 看 到 了 计算 机 性 能 的 巨大 飞跃 。 这 主要 是 半导体 器 件 
特征 尺寸 不 断 减 小 的 结果 。 从 20 世纪 60 年 代 到 今天 ， 半 导体 需 件 的 特征 尺寸 已 经 
从 毫米 级 缩小 到 纳米 级 ， 从 而 使 芯片 上 的 晶体 管 数 目 成 几何 倍数 增加 ， 几 乎 每 18 
ANH fl—1&. Gordon Moore 最 早 预测 了 这 种 增加 趋势 ， 并 由 此 命名 为 摩尔 定律 。 我 
们 不 能 低估 这 种 趋势 ， 因 为 它 所 于 来 的 计算 机 性 能 的 提高 极 大 地 影响 了 社会 发 展 的 
方方面面 。 

随 着 摩尔 定律 的 成 功 实现 ， 硅 基 MOSFET 的 特征 尺寸 持续 减 小 ， 未 来 集成 电 
路 的 集成 度 将 不 断 增加 ”。 但是， 当今 集成 电路 工艺 的 发 展 遇 到 了 几 大 瓶颈 。 第 
一 ， 小 太 才 融 件 的 光 刻 花费 巨大 ， 这 意味 着 不 断 减 小 的 光 刻 尺寸 将 产生 高 额 的 成 
AS; 第 二 ， 如 果 光 刻 斥 十 能够 不 断 减 小 ， 集 成 电路 的 时 钟 频率 应 等 比例 增加 ， 但 世 
片上 高 密度 的 晶体 管 所 产生 的 大 量 功 耗 会 极 大 地 抑制 时 钟 频率 。 事 实 上 ， 当 今 处 理 
伪 设 计 主 要 依靠 高 效 新 突 的 架构 提高 性 能 ， 而 非 简 单 的 时 钟 频 率 。 这 就 意味 着 ,将 
来 的 集成 电路 的 发 展 只 单独 依靠 减 小 集成 电路 的 特征 尺寸 和 增加 集成 度 ， 很 难 再 提 
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高 系统 性 能 ， 人 们 需要 新 方法 来 实现 设计 目标 。 因 此 ，3D 集成 电路 技术 应 运 而 生 ， 
它 不 依赖 于 器 件 尺 寸 的 减 小 ， 其 特点 是 : 通过 3D 集成 减 小 总 的 互 连 线 长 度 ， 从 
而 有 效 减 小 互 连 延 迟 ; @ 各 层 之 间 的 互 连 急剧 增加 ; @ 不 同 材 料 、 工 艺 和 功能 的 模 
块 集成 于 一 体 。 

总 的 来 说 ，3D 集成 技术 可 以 广义 地 定义 为 : 基于 任何 工艺 的 半导体 元 硕 件 层 
层 向 上 堆 秋 ,并 利用 垂直 的 ， 而 非 外 围 的 互 连 线 ,彼此 相连 。 根 据 这 一 定义 ，3D 
- 集成 技术 内 容 广 泛 ， 和 包括 简单 的 世 片 堆 乔 ， 硅 基 世 片 载体 与 代 入 体 的 堆 琶 ， 必 有 卢 与 
MAME, WRN ARE, BEBE EN IH, SAAT 
Aia I eZee ee FTES REI, RAPER ROR, fl, ERM 
信 中 ， 世 片 只 需 少 量 硅 通 孔 来 连接 地 线 ， 从 而 降低 电感 ; 在 高 性 能 服务 硕 和 多 层 堆 
春 的 存储 器 中 则 需要 极 高 密度 (10 ~ 10 pins/em ) 的 垂直 互 连 线 ; 而 在 3D ic 
中 电源 稳 压 器 和 调节 器 设计 在 中 心 位 置 ， 满 足 了 全 方位 的 高 密度 互 连 的 需要 。 

3D 集成 工艺 技术 方法 多 样 ， 并 已 有 相关 文献 给 予 过 详 述 ”。 这 些 工艺 方法 有 
着 各 自 的 优点 和 利 深 ， 各 种 不 同 的 应 用 需求 最 终 决 定 了 采用 何 种 工艺 流程 。 然 而 ， 
几乎 所 有 的 3D 集成 工艺 都 有 3 个 主要 的 工艺 流程 : 也 垂直 互 连 ; QHATH; 
G) 品 圆 减 薄 与 背面 处 理 。 这 些 流程 的 顺序 在 不 同 的 工艺 中 各 不 相同 ， 它 的 选择 在 很 
大 程度 上 取决 于 最 终 应 用 。 而 工艺 选择 也 会 最 终 影响 整体 设计 ， 我们 将 在 后 面 的 章 
节 耶 以 讨论 。 为 了 更 好 地 明白 3D 集成 电路 的 先进 性 ， 首 先 我 们 应 了 解 今天 3D E 
成 技术 一 些 初期 的 产品 应 用 。 


2.2 Tix: 3D 集成 技术 的 初期 需求 


移动 便携 设备 小 型 化 的 趋势 是 推动 3D 集成 技术 发 展 的 初期 市 场 驱 动力 。 作 为 
一 项 关键 的 产品 一 一 CMOS 图 像 传 感 硕 〈 摄 像 机 ， 蜂 窝 网 通信 手机 中 使 用 的 模块 , 
市 动 了 品 圆 级 封 闻 (WL-CSP) 技术 的 发 展 。Shellcase 公司 (后 来 又 收购 了 Tessera 
公司 ) 在 品 圆 级 封 波 搁 术 方面 实力 雄厚 。 他 们 的 很 多 技术 可 以 对 比 3D 集成 技术 : 
中 唱 圆 级 封装 技术 不 是 电路 级 的 堆 敌 ， 而 是 晶 圆 级 ; @ 晶 圆 级 封装 技术 经 常 在 芯片 
边缘 的 部 分 布线 ， 从 而 完成 前 后 品 圆 的 电学 互 连 。 然 而 ，WL- CSP 并 没有 带 来 期 望 
的 技术 进步 ， 没 有 推动 诸如 硅 与 玻璃 的 粘 合 及 随后 的 唱 圆 减 薄 等 技术 ， 而 这 些 技 术 
恰恰 是 3D 集成 技术 的 主流 技术 ， 沿 用 至 今 。 在 另 一 个 领域 ， 多 芯片 封装 (MCP) 
技术 利用 多 层 必 片 实现 了 存储 需 的 海量 集成 ， 发 展 迅 猛 。 而 且 ， 这 项 技术 推动 了 高 
可 徘 性 的 唱 圆 减 薄 技 术 ， 推 动 了 不 依赖 于 隐 离 层 的 芯片 堆 秋 技术 。 以 上 这 些 封装 技 
A, 实现 了 层 与 层 之 间 的 引线 互 连 ， 都 为 移动 便携 设备 小 型 化 提供 了 卓有成效 的 解 
决 方案 。 但是， 由 于 移动 便携 设备 的 不 断 发 展 和 进步 ， 新 的 3D 集成 技术 呼 之 
KEH o 

便携 设备 上 越 来 越 多 的 附加 功能 ， 使 人 们 对 设备 的 要 求 不 再 局 限于 简单 的 外 形 
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尺寸 的 小 型 化 ， 而 是 性 能 的 全 面 提高 。 例 如 ， 高 端的 应 用 程序 所 要 求 的 运算 速度 近 
远 超出 传统 引线 带宽 可 支持 的 范围 。 另 外 ， 对 信号 总 带宽 不 断 地 增 大 则 要 求 互 连 线 
由 原来 的 边缘 部 分 延伸 至 〈 如 芯片 边缘 或 引线 键 合 互 连 ) 整个 必 片 。 这 就 需要 能 
够 贯通 整个 堆 礁 芯片 的 新 型 技术 ， 即 硅 通 孔 和 平面 阵列 互 连 。 以 前 ， 由 于 采用 硅 通 
孔 的 产品 成 本 较 高 ， 硅 通 孔 的 应 用 步伐 逐渐 放 缓 ， 而 且 ， 硅 通 孔 应 用 也 主要 针对 
IO 较 少 的 情况 ， 放 置 在 电路 外 围 边缘 ， 使 其 不 能 发 挥 固有 的 优势 。 但 在 当今 设备 
高 性 能 的 要 求 下 ， 硅 通 孔 从 芯片 边缘 逐渐 过 渡 到 整个 心 片 。 而 在 微机 电 系 统 
(MEMS) 制造 中 深度 反应 离子 刻 蚀 工艺 技术 的 问世 ， 使 硅 通 孔 可 以 信用 此 技术 扬 
用 较 少 的 芯片 面积 ， 减 小 了 使 用 硅 通 孔 的 成 本 。 而 芯片 与 世 片 之 间 的 平面 阵列 互 
连 , 已 应 用 在 索尼 的 游戏 掌 机 (PlayStation Portable, PSP) 中 。 在 可 接受 的 成 本 
下 ， 提 高 了 内 存 和 处 理 器 之 间 的 通信 带宽 。 他 们 采用 了 一 种 基于 微 凸 焊 的 技术 ， 提 
供 高 带宽 连接 (30pm 焊 球 和 60pm 间距 ) 和 两 心 片 有 源 层面 对 面 互 连 ， 实 现 倒 站 
封闭。 这 种 方式 虽然 实现 了 两 层 心 片 的 高 市 宽 互 连 , 但 是 ， 如 果 没 有 硅 通 和 孔 ， 这 项 
技术 便 不 能 扩展 到 两 层 以 上 多 层 心 片 间 的 通信 。 因 此 ， 结 合 具有 精密 间距 硅 通 孔 的 
平面 阵列 互 连 ， 显 然 是 下 一 代 3D 集成 电路 技术 的 主要 发 展 方 回 。 

品 圆 与 玻璃 键 合 ， 品 圆 减 薄 和 心 片 边缘 搬入 硅 通 孔 等 技术 业已 应 用 在 当今 大 规模 的 
产品 制造 中 。 但 是 ， 下 一 代 3D 集成 电路 技术 会 朝 看 不 同方 向 继续 发 展 ， 这 使 制造 工艺 
My nA EAR, ie RUE. RN, Fee ie RSE OBR. 


2.3 影响 3D 设计 艺术 状态 的 工艺 因素 


由 于 现今 已 有 的 许多 3D 集成 电路 制造 技术 都 有 各 上 自 的 工艺 参数 ， 并 在 诸多 方 
影响 了 3D 集成 电路 的 设计 ， 所 以 了 解 设计 和 工艺 之 间 的 关系 非常 重要 。 在 这 
里 ， 我 们 就 一 些 关 键 工 艺 参数 如 何 影响 设计 ， 提 供 指 导 性 意见 。 这 些 意见 包括 各 层 
的 堆 春 方向 、 对 齐 的 规则 、 键 合 界 面 的 设计 ， 以 及 硅 通 孔 的 设计 要 点 和 工艺 整合 。 


2.3.1 各 层 的 堆 又 方向 : 正面 对 背面 与 正面 对 正面 


在 3D 4E B PRESE ASI. En EBT nda BKB, EMSA 
影响 不 同 层 晶体 管 的 间距 ， 并 涉及 EDA TA PAT eel, SSRIS AUES 
在 一 起 ,任意 两 层 的 堆 闭 组 合 有 多 种 ,但 是 正面 对 背面 和 正面 对 正面 的 比较 可 以 说 
明 许 多 重要 的 问题 。 这 两 种 选择 的 图 示 说 明 如 图 2-1 所 示 。 

2.3.1.1 正面 对 背面 

正面 对 背面 的 方法 是 使 上 层 必 片 〈 经 过 减 薄 ) 的 底部 和 下 层 芯 片 的 顶部 键 合 。 
类 似 的 方法 最 初 是 应 用 在 IBM 公司 开发 的 GS 系统 中 的 多 芯片 模块 (MCM), 后 
来 同样 的 方法 在 CMOS 和 MEMS 的 唱 圆 级 设计 中 同样 适用 。 图 2- 1a 示 出 了 两 层 堆 
春心 片 正面 对 育 面 的 结构 。 因 此 ， 该 结构 的 厚度 依赖 于 减 薄 后 上 层 世 片 的 厚度 。 如 
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a) b) 


Al 2-1 两 层 芯片 3D HARARE: a) 正面 对 背面 ; b) 正面 对 正面。 
3D 硅 通 孔 的 间距 与 3D 互 连 线 的 对 照 


果 由 于 工艺 的 限制 硅 通 孔 的 长 度 必须 和 截面 积 呈 比例 ， 那 么 衬 底 的 厚度 就 直接 影响 
两 层 晶 圆 间 互 连 的 数量 。 同 样 重要 的 是 要 注意 ， 在 这 个 结构 中 ， 唱 圆 之 间 的 互 连 的 
总 数 不 能 大 于 硅 通 孔 的 数量 。 为 了 实现 这 样 一 个 堆 敌 ,需要 利用 承载 衬 底 层 ， 众 所 
周知 ， 承 载 衬 底 可 能 使 晶 圆 顶部 发 生 扭 曲 ， 难 以 实现 较 小 的 对 准 误差 。 在 以 前 的 工 
作 中 ， 我 们 发 现 这 种 由 承载 衬 底层 引起 的 扭曲 达到 50 x 10“， 但 通过 诸如 具有 温 
度 补偿 的 键 合 可 用 于 减少 这 些 扭曲 。 目 前 的 正面 对 背面 结构 中 ， 和 典型 的 上 层 必 请 的 
厚度 为 25 ~ 50pm， 这 使 通 孔 和 互 连 间距 限制 在 10 ~20um, 但 将 来 晶 圆 减 薄 和 通 
了 筷 填 充 技术 的 进步 会 减 小 这 一 数值 。 

2.3.1.2 正面 对 正面 

图 2- 1b 示 出 了 正面 对 正面 的 方法 ， 即 把 品 圆 的 需 件 层 键 合 在 一 起 。 这 种 方法 
最 初 由 IBM 公司 提出 ”， 在 20pm 的 互 连 线 间距 下 ， 设 计 多 芯片 模块 ， 与 正面 对 
背面 结构 相 比 , 减 小 了 工艺 的 复杂 性 。 正 面 对 正 面 结 构 主 要 的 潜在 优势 是 使 层 和 层 
之 则 硅 通 孔 的 数量 成 倍增 加 。 因 此 ， 与 正面 对 背面 结构 相 比 ， 它 可 以 实现 更 高 的 互 
连 密度 。 在 这 种 情况 下 ， 互 连 间距 仅 由 键 合 工 艺 的 对 准 误差 限制 (加 上 标准 CMOS 
光 刻 步骤 引起 的 正常 套 刻 误差 ) 。 在 当今 最 先进 的 对 准 键 合 系统 中 ， 典 型 的 误差 为 
1 ~2hm， 因 此 正面 对 正面 结构 能 够 实现 10km 间距 ， 甚 至 更 小 。 然 而 ， 这 种 层 间 
ERR EMH, Rava CRB, 对 于 多 层 堆 羡 结构 ， 硅 通 孔 仍然 会 
限制 总 的 3D 互 连 密度 。 


2.3.2 层 间 对 准 : 层 间 互 连 误差 


从 上 面 的 讨论 可 以 看 出 ， 层 间 对 准 误差 会 直接 影响 3D 集成 电路 的 层 间 互 连 线 
密度 ， 并 进一步 影响 3D 集成 电路 的 整体 性 能 。 误 差 由 工艺 决定 ， 不 同 工 艺 的 误差 
区 别 很 大 ， 所 以 工艺 加 工 能 力 对 误差 大 小 至 关 重 要 。 例 如 ， 不 同 层 芯片 的 对 准 误差 
汇 围 从 1 ~20pm 不 等 ， 这 主要 取决 于 工艺 加 工 的 速度 。 在 制造 工艺 中 ， 可 以 精确 
地 把 握 层 间 互 连 的 间距 ， 但 是 对 准 每 层 忆 片 所 需 的 大 量 时 间 会 给 制造 工艺 带 来 极 大 
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的 挑战 。 在 未 来 几 年 ， 对 准 工艺 带 来 的 挑战 会 逐步 解决 ， 从 而 使 以 上 方法 可 行 。 未 
来 ， 尽 管 层 间 互 连 线 尺寸 不 断 减 小 ， 但 层 间 距 可 以 精确 的 把 握 ， 这 为 高 性 能 心 片 堆 
释 提 供 了 最 佳 解 决 方案 。 今 天 ， 唱 圆 对 准 提供 了 一 种 替代 方案 ， 品 圆 由 很 多 必 片 组 
成 (芯片 彼此 相连 ) ， 可 以 利用 晶 圆 对 准 ， 一 次 达到 晶 圆 上 所 有 芯片 对 准 。 这 就 允 
许 花 费 更 多 的 时 间 专 注 于 精确 的 对 准 工艺 。 先 进 的 唱 圆 对 准 和 键 合 方法 目前 通常 可 
以 实现 1 ~2um 的 误差 。 虽 然 不 同 工 艺 所 带 来 的 一 系列 问题 是 复杂 的 ， 但 下 面 对 品 
圆 对 准 键 合 方法 的 深入 讨论 可 以 帮助 解决 唱 圆 和 芯片 扒 蚕 方法 中 出 现 的 问题 。 

在 3D 集成 电路 中 ， 对 准 晶 圆 键 合 与 传统 的 键 合 技术 不 同 。 例 如 ， 与 SOI TZ. 
中 衬 底 的 制造 相 比 ， 有 很 大 不 同 。 第 一 ， 为 了 达到 预期 的 层 间 互 连 密 度 ， 发 挥 3D 
集成 电路 的 特有 优势 ， 需 要 记录 每 个 唱 圆 刻 蚀 的 图 案 来 实现 对 齐 。 第 二 ，3D 集成 
的 每 层 晶 圆 表面 通常 有 显著 的 凹凸 ， 它 们 可 以 用 来 完成 高 品质 的 键 合 ， 但 与 平整 键 
合 相 比 ， 特 别 是 对 于 氧化 物 融合 键 合 ， 显 车 增加 了 难度 。 最 后 ， 因 为 CMOS 电路 
(通常 后 段 工艺 金属 化 ) 已 经 存在 于 品 圆 上 ， 在 键 合 过 程 中 的 温度 限制 非常 严格 ， 
典型 的 键 合 温度 通常 低 于 400 。 

在 CMOS 制造 中 ， 唱 圆 对 准 从 根本 上 不 同 于 今天 通常 使 用 的 基于 步 进 重复 投影 
曝光 的 光 刻 对 准 。 这 是 因为 唱 圆 对 准 必 须 在 整个 唱 圆 进行 ， 而 不 是 基于 必 片 之 间 。 和 
its Fe BOT MET a SRA LC, A a PA h EAE, RSH Ae, GE. SEIZE Raw 
动 、 热 膨胀 都 能 导致 覆盖 误差 。 此 外 ， 基 板 的 透明 或 不 透明 也 可 以 影响 唱 圆 对 准 。 设 
备 制 造 商 已 经 为 200mm 和 300mm 唱 圆 开发 了 对 准 精 度 在 1 ~2um 范围 内 的 对 齐 工 具 。 

由 于 温度 波动 和 与 键 合 工 艺 本 号 相关 的 潜在 扭曲 存在 ,在 工业 界 的 标准 程序 
中 ， 首 先 应 使 用 对 准 设备 (具有 高 吞吐 量 ) ， 然 后 将 唱 圆 移动 到 特殊 化 的 键 合 设 
备 ， 来 更 好 地 控制 晶 圆 和 3D 堆 震 间 的 温度 和 压力 。 良 好 的 工艺 控制 的 关键 是 将 对 
准 和 键 合 前 的 步骤 从 实际 的 键 合 工艺 中 分 离开 来 的 能 力 。 这 种 集成 一 体 化 的 设计 可 
以 更 好 地 了 解 最 终 的 对 准 误差 。 也 就 是 说 ， 实 际 使 用 的 键 合 工艺 和 技术 能 影响 整体 
的 对 准 覆 盖 。 理 解 这 个 问题 对 于 正确 选择 键 合 工艺 是 很 重要 的 。 

例如 ， 当 来 自 两 个 衬 底 周 围 的 绝缘 材料 凹 进 时 会 产生 一 个 铜 - 铜 键 合 对 准 问 题 。 
在 这 种 情况 下 ， 如 采 有 键 合 前 的 大 侦 差 ， 品 圆 仍然 可 以 连接 压 焊 线 。 此 外 ， 这 种 结构 
无 法 抑制 由 于 热 压 缩 而 产生 的 热 偶 差 ， 不 能 抑制 由 于 热 压 缩 过程 诱 导 的 剪 力 产生 的 对 
准 滑 移 。 为 了 防止 这 种 滑 移 ， 一 种 方法 是 使 用 锁 - 钥匙 的 结构 在 表面 限制 偏差 量 ， 即 
在 初始 对 准 和 布局 步骤 中 ， 保 持 一 个 品 圆 对 准 到 另 一 个 。 这 是 在 保持 3D 工艺 更 紧密 
互 连 间 距 能 力 的 一 个 重要 因素 ， 因 为 可 允许 间距 往往 受 限 于 对 准 和 键 合 公差 。 

在 减 溥 工 艺 中 ， 品 圆 处 理 和 分 层 工 艺 会 给 减 薄 的 硅 层 增加 扭曲 。 这 种 扭曲 由 材 
料 间 的 热膨胀 系数 的 不 同和 低 弹 性 的 聚合 物 复合 材料 的 使 用 引起 。 作 为 一 个 例子 ， 
如 果 不 加 以 控制 ， 玻 璃 化 晶 圆 的 使 用 会 在 200mm 的 晶 圆 边缘 引起 Sum 的 对 准 误 
差 ， 这 明显 大 于 有 二 接 的 硅 - 硅 对 准 误差 。 所 以 ， 对 于 工艺 中 使 用 的 处 理 后 的 唱 圆 ， 
控制 和 减 小 这 些 误差 是 重要 的 考虑 因素 。 在 实践 中 ， 这 些 扭曲 往往 可 以 作为 全 局 误 
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差 来 建 模 ， 从 而 我 们 就 可 能 基于 温度 控制 、 晶 圆 材料 和 层 压 聚合 物 来 纠正 大 部 分 的 
品 圆 级 误差 。 

对 准 有 时 候 仅仅 用 于 基于 SOT 的 氧化 物 键 合 方面 。 这 个 过 程 经 常用 在 SOI án FB 
被 夹 在 玻璃 化 晶 圆 中 ， 并 且 硅 衬 底 除去 之 后 ， 留 下 一 层 SOI 薄 层 附着 在 玻璃 上 。 不 
像 其 他 的 两 种 情况 ， 一 是 单独 的 光路 用 做 对 准 晶 圆 表 面 成 像 况 ， 二 是 需要 用 红外 成 
像 通过 唱 圆 堆 蕉 层 ， 对 于 SOT 晶 贺 对齐， 人 们 可 以 通过 可 见 光 波段 看 到 这 种 类 型 的 
样品 。 这 允许 非常 准确 的 直接 光学 对 准 到 下 层 的 硅 晶 片 ， 用 一 种 和 唱 圆 级 片 规模 对 
准 器 的 方式 。 晶 圆 片 接触 和 初步 氧化 物 熔 接 必 须 由 对 准 工 具 本 号 启动， 然而 一 旦 实 
现 这 一 点 ， 会 在 下 游 公 艺 中 产生 小 的 最 小 对 准 失真 。 


2.3.3 键 合 界面 设计 


羞 层 之 间 高 质量 的 键 合 界面 设计 需 机 械 的 、 电 气 的 和 热 的 仔细 分 析 。 在 下 一 市 
中 ， 我 们 简要 地 描述 IBM 公司 研究 的 3D 唱 圆 键 合 对 准 的 3 个 特别 的 技术 : Oh- 
铜 压 接 ; @) 传 递 和 交接 键 合 (混合 铜 和 粘 黏 键 合 ) ; OM Whe. FWA XT oh 
片 级 和 琶 层 间 的 设计 需要 关注 。 这 些 硅 世 片 之 间 往 往 需要 焊料 和 填充 材料 。 

2.3.3.1 铜 - 铜 压 接 

通过 高 温 表 面 铜 化 的 两 个 品 圆 间 的 压力 ， 使 两 个 唱 圆 的 压 接 成 为 可 能 。 对 于 
3D 集成 ， 铜 一 铜 连接 可 以 为 两 层 之 间 提 供 额 外 的 电气 连接 的 功能 。 该 键 合 过 程 的 
质量 优化 是 正在 解决 的 一 个 关键 问题 ， 包 括 多 种 平面 制备 技术 、 键 合 后 矫 直 、 热 退 
火 循环 ， 以 及 使 用 优化 的 图 案 几 何 技术 “"”。 

铜 热 压 接 发 生 在 高 温度 和 高 压力 的 情况 下 ， 此 时 铜 区 域 之 间 的 微观 接触 开始 变 
形 ， 进 一 步 增 加 了 其 接触 面积 ， 最 终 扩 散 到 彼此 以 完成 键 合 工艺 。 铜 键 合 的 关键 参 
数 包 括 键 合 压力 、 温 度 、 持 续 时 间 ， 以 及 铜 表面 清洁 度 。 为 了 获得 高 质量 的 键 合 ， 
优化 这 些 参 数 是 必需 的 。 表 面 清洁 程度 不 仅 和 键 合 前 表面 清洁 有 关 还 和 键 合 过 程 中 
的 真空 条 件 有 关 ” 。 另 外 ， 尽 管事 实 上 键 合 温度 是 决定 键 合 质量 的 重要 参数 ， 但 
温度 必须 与 后 线 工艺 温度 相 容 以 不 影响 顺 件 的 性 能 。 

对 于 真实 硕 件 的 品 圆 级 铜 键 合 的 质量 ， 在 本 章 参考 文献 [9，10] 中 有 所 研究 。 
铜 键 合 模式 的 设计 不 仅 影响 电路 布局 ， 而 且 影 响 键 合 质量 ， 因 为 它 和 可 用 面积 相 
关 ， 此 可 用 面积 的 区 域 是 在 一 个 本 地 的 区 域 或 穿 过 整个 品 圆 而 被 键 合 的 区 域 。 铜 键 
合 衬 垫 的 大 小 〈 互 连 的 大 小 ) 、 衬 垫 密度 (总 的 键 合 面积 ) 和 密封 设计 也 已 经 被 研 
究 。 基 于 不 同 的 铜 键 合 密度 的 研究 表明 ， 更 高 的 键 合 密度 会 有 更 好 的 键 合 质量 ， 并 且 
可 以 在 切割 测试 中 出 现 很 少 的 失效 。 另 外 ， 一 个 在 电 互 连 周 围 、 芯 片 的 边缘 和 品 圆 边 
缘 具 有 额外 的 铀 键 合 面积 的 密封 设计 能 够 防止 腐蚀 和 提供 额外 的 机 械 支持 ”。 

2.3.3.2 RAWEA (传递 - 压 接 ) 

关于 铜 一 铜 压 接 工艺 的 变形 可 利用 具有 中 间 粘 合 层 的 一 种 锁 - 钥匙 的 结构 实现 
来 提高 压 接 的 强度 。 这 项 技术 最 初 是 为 MCM 超 薄 膜 模 块 开 发 的 并 且 在 构建 和 验证 
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期 间 进行 了 大 量 的 可 靠 性 试验 ”"” 。 然 而 ， 正 如 之 前 提 到 过 的 ， 该 方案 同样 运用 
于 唱 圆 级 3D 集成 ， 并 可 能 相对 于 基于 铜 - 铜 直接 键 合 的 方案 有 显 堵 的 优势 。 

在 传递 - 压 接 组 件 方案 中 ， 将 连接 在 一 起 的 两 个 唱 圆 的 表面 ， 一 面 设置 有 一 组 
突起 ( 键 )， 它 将 匹配 到 另 一 面 的 插座 ( 锁 )， 如 图 2-2a。 一 个 突起 ， 也 被 称 为 一 
个 螺 柱 ， 可 以 是 一 个 硅 通 孔 的 延伸 或 一 个 特殊 制造 的 后 线 铜 螺 柱 。 插 座 设置 在 底 
部 ， 具 有 一 个 铜 垫 片 ， 铜 垫 片 会 和 铜 螺 柱 键 合 在 一 起 。 至 少 所 述 表 面 中 的 一 个 
(图 2-2a 中 下 面 的 一 个 ) 在 钝 化 电介质 层 顶 上 设置 有 粘 合剂 。 两 个 衬 撒 可 以 是 硅 
衬 底 ， 或 其 中 之 一 可 以 是 减 薄 处 理 后 的 唱片 。 在 每 个 唱 圆 ， 螺 柱 和 衬 垫 被 选择 性 地 
连接 到 电路 ， 并 通过 适当 的 2D 互 连 和 /或 硅 通 孔 互 连 。 

在 铜 - 铜 直接 键 合 技术 中 ， 这 些 衬 底 可 以 通过 一 种 均匀 的 理想 的 压力 ， 并 在 
350 ~400°C 的 温度 范围 下 对 齐 然后 键 合 到 一 起 ， 螺 柱 的 高 度 和 粘 合 层 或 绝缘 层 的 厚度 
匹配 ， 以 使 得 在 键 合 过 程 中 ， 首 先 实现 铜 螺 柱 到 铜 焊 盘 的 接触 。 在 持续 的 键 合 压力 条 
件 下 ， 螺 柱 的 高 度 被 压缩 ， 粘 合剂 加 入 到 接触 面 中 ， 和 相应 的 绝缘 体 表面 键 合 





d) e) f) 

图 2-2 键 合 方案 : a) 传递 - 压 接 键 合 方案 截面 图 ; b) 抛光 的 传递 - 压 接 键 合 方案 截面 图 
c) 目 上 而 下 的 简化 层次 后 的 传递 - 压 接 键 合 扫描 电子 显微镜 图 像 ; d) 氧化 物 融 合 键 合 方案 ; 
e) 透射 电子 显微镜 (TEM) 下 氧化 物 融 合 键 合 的 横 截 面 图 ; f) 用 于 两 片 唱 圆 的 
氧化 物 键 合 的 品 圆 红 外 图 像 


粘 合 剂 材 料 按 满 足 合 适 的 流 变 力 学 的 需要 而 选择 ， 通 过 填充 在 晶 圆 之 间 的 间 
险 ， 从 而 使 两 个 唱 圆 键 合 在 一 起 。 此 外 ， 该 粘 合剂 在 键 合 温 度 条 件 下 和 任何 后 续 处 
(附加 层 连 接 ，3D BRIG MRA AS) 所 需要 的 条 件 均 为 热 稳定 的 。 

论 是 承载 唱 圆 已 进行 处 理 或 进行 了 背 侧 唱 圆 减 薄 ， 都 会 进行 键 合 处 理 。 如 果 考 虑 
nee tn 该 过 程 可 以 根据 需要 重复 。 

一 个 完整 的 具有 聚合 物 胶粘剂 层 的 铜 - 铜 传递 - 压 接 键 合 如 图 2- 2b 所 示 。 这 是 
在 一 个 键 合 结构 中 ， 在 上 层 衬 底 被 减 蒲 后， 为 了 构造 上 的 分 析 ， 图 2-2c 另外 展示 
了 螺 柱 到 垫 片 的 对 齐 。 这 种 锁 - 钥匙 的 转移 交接 的 方法 可 以 和 任何 之 前 描述 的 3D 
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集成 方案 结合 。 粘 合剂 增加 了 3D 堆 香 的 机 械 完整 性 ， 意 味 着 铜 一 铜 直接 键 合 的 抽 
密度 的 要 求 可 以 放宽 ， BEES. 

2.3.3.3 氧化 物 融合 键 合 

氧化 物 键 合 可 以 用 来 将 两 个 全 工艺 的 晶 圆 相连 在 一 起 。 在 IBM 公司 ,已 经 公布 
了 大 量 的 关于 这 种 基本 工艺 的 使 用 方法 。 这 种 工艺 可 以 将 在 面 对 背 方 回 的 SOT 8D IE E 
接 在 一 起 53] 。 在 3D 集成 电路 中 ,使 用 氧化 物 融 合 的 其 他 方案 已 经 由 他 人 实施 ”。 
为 了 保证 集成 电路 键 合 平面 平坦 化 特点 和 这 些 表 面 的 活化 性 质 的 兼容 性 ， 通 常 的 要 求 
包括 低温 键 合 氧化 物 的 沉积 和 退火 ， 以 提供 适当 的 化 学 性 质 ， 人 允许 粗糙 的 键 合 发 生 。 
氧化 键 合 工艺 的 示意 图 如 图 2-2d 所 示 ， 接 着 是 键 合 界面 的 横 和 截面 透射 电子 显微镜 照 
He (TEM) ( 见 图 2-2e) 和 典型 键 合 〈( 见 图 2-2f) 的 整个 晶 圆 的 红外 图 像 。 透 射电 子 
显 微 照片 显示 了 分 布 的 微 空洞 模式 ， 而 平面 图 红外 图 像 表 明 ， 经 过 150C 和 280°C 键 
合 后 退火 ， 优 良 的 粘 接 质量 得 以 维持 ,虽然 偶尔 观察 到 宏观 尺度 的 空 际 。 

采用 多 层次 的 后 端 布线 通常 会 导致 显著 的 表面 形 貌 。 这 为 需要 极其 平坦 表面 的 
氧化 键 合 带 来 了 挑战 。 虽 然 在 掩 膜 设计 中 ， 通 过 控制 金属 图 形 的 密度 可 以 减少 非 平坦 
化 ， 但 也 需要 基于 工艺 的 平坦 化 方法 。 正 如 本 章 参 考 文献 [15] 所 述 ， 具 有 后 端 金 
属 化 的 典型 晶 圆 有 显著 的 模式 诱导 的 拓扑 结构 。 我 们 已 经 展示 了 在 一 个 高 度 优 化 的 化 
学 - 机 械 抛 光 (CMP) 后 ， 先 进 的 平坦 化 方案 合并 厚 的 SIO, 层 的 沉积 ， 可 以 大 大 降低 
依靠 图 形 模式 造成 的 变化 ， 这 是 需要 达到 的 良好 的 键 合 效果 。 这 种 先进 的 平坦 化 技术 
的 发 展 将 是 氧化 键 合 方案 的 商业 化 的 关键 ,但 在 常规 基础 上 可 能 遇 到 图 形 模式 有 关 的 
拓扑 变化 。 而 将 这 一 类 型 的 技术 进入 生产 带 来 很 多 挑战 ， 用 氧化 熔融 键 合 连 接 SOT ih 
圆 ， 它 可 以 使 设备 之 间 有 非常 小 的 距离 ， 同 样 可 以 导致 非常 高 的 密度 互 连 。 


2.3.4 硅 通 孔 维 度 : 设计 点 选择 


也 许 对 3D 集成 电路 ， 最 终 要 的 拓扑 元 素 是 垂直 互 连 ， 例 如 硅 通 孔 。 早 期 ， 硅 
通 孔 由 像 BM 、 东 和 芝 和 意 法 半导体 等 公司 引进 到 生产 中 ， 使 用 不 同 的 金属 材料 包括 
名 和 铜 。 对 于 3D 集成 电路 ， 需 要 一 个 高 性 能 的 垂直 互 连 才 能 真正 地 实现 3D 系统 
的 性 能 优势 。 早 期 ， 由 于 互 连 被 限制 在 必 片 的 外 围 ， 且 比 传统 的 平面 技术 难度 更 
大 ， 而 不 能 显 若 地 提高 互 连 密 度 。 在 一 定 的 必 片 面积 内 得 到 硅 通 孔 互 连 的 方法 和 后 
线 (生产 线 后 端 ) 半导体 工艺 有 所 相似 。 不 同 之 处 在 于 ， 对 于 每 个 硅 通 孔 通常 需 
要 一 个 深 的 洞 ， 这 些 通过 硅 衬 抵 的 洞 不 得 不 使 用 特别 的 刻 蚀 工艺 被 垂直 地 创造 。 

人 硅 通 孔 的 维度 是 3D 电路 设计 的 关键 ,由 于 它们 直接 影响 了 不 可 布线 区 域 ， 这 
些 区 域 是 设计 者 不 能 放电 阻 的 。 在 茶 些 情况 下 ， 在 工艺 流水 线 后 端 也 不 能 布线 。 然 
而 ， 硅 通 孔 的 维度 很 大 程度 依赖 于 用 于 制造 它们 的 3D 工艺 技术 ， 并 且 更 具体 地 说 
是 硅 层 厚度 、 深 高 比 ， 侧 墙 倾斜 度 和 其 他 工艺 特征 参数 的 孔 数 。 这 些 维度 也 很 大 程 
度 上 受用 于 填充 通 孔 的 金属 化 的 影响 。 这 里 ， 当 处 理 两 种 重要 的 可 相互 替代 的 金属 
化 材料 时 ， 我 们 将 看 到 这 些 工艺 参数 选择 的 影响 。 
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2.3.4.1 基于 钨 和 铜 硅 通 孔 的 设计 考虑 

1. 品 圆 减 薄 的 影响 

晶 圆 减 薄 是 3D 集成 电路 的 重要 组 成 部 分 ， 因 为 它 使 得 层 间 的 距离 减 小 ， 所 以 
允许 高 密度 的 垂直 互 连 。 晶 圆 减 蒲 的 最 大 挑战 是 衬 底 必须 减 薄 到 原 厚 度 的 5% ~ 
10% ， 且 需要 小 于 1 ~2pm 的 一 致 性 要 求 。 在 体 硅 中 ， 由 于 刻 蚀 不 会 目 然 停 止 ， 这 
种 减 薄 是 特别 具有 挑战 性 的 。 最 终 的 厚度 取决 于 减 薄 工艺 控制 能 力 和 硅 移 除 工 亏 
(机 械 网 格 和 抛光 ， 湿 发 或 干 法 刻 蚀 ) 对 厚度 的 限制 。 对 一 个 几 微 米 均 匀 厚 度 的 俊 
片 减 薄 已 经 成 功 验证 ,但 是 大 于 20pm 的 典型 厚度 需要 更 加 先进 的 工艺 。 硅 减 注 的 
标准 工艺 步骤 如 下 : 第 一 步 粗 研磨 ， 以 便 进 行 薄 唱 圆 ， 从 其 原始 厚度 (700 ~ 
800um) 减 薄 到 125 ~150pm。 这 种 工艺 通常 使 用 一 个 400 目 人 研磨 表面 进行 。 下 一 
步 用 1800 ~ 1200 目 表 面 精细 人 研磨， 减 薄 到 小 于 100pm。 最 后 是 机 械 抛 光 步 又 ， 能 
减 减 薄 到 30 ~ 60 um 的 理想 厚度 。 对 于 大 多 数 过 程 ， 由 于 压力 和 机 械 研 麻 抛 光 会 损 
伤 硅 的 特性 ， 这 些 只 在 硅 的 均匀 区 域 进行 的 研磨 步骤 是 理想 的 。 如 果 有 必要 从 背面 
露出 硅 通 孔 ， 通 常 希望 使 用 一 个 基于 等 离子 体 的 蚀刻 工艺 (如 反应 离子 蚀刻 ) 以 
暴露 硅 通 孔 ， 来 完成 减 薄 工 艺 。 背 面 减 薄 的 均匀 化 ， 限 制 了 硅 通 孔 深 度 ， 因 此 ， 通 
孔 刻 蚀 可 以 使 用 此 减 薄 技术 。 在 通 孔 从 衬 底 背 面 暴 露 后 ， 将 使 用 与 品 圆 级 封装 的 工 
艺 相 似 的 技术 来 制造 重 分 布 层 。 某 些 情况 下 ， 可 以 制造 多 层 布 线 。 

不 同 的 品 圆 厚度 可 以 导致 不 同 几 何 i — 
形状 的 通 孔 ， 如 图 2-3 所 示 。 非 常 薄 的 
品 圆 ， 硅 厚度 小 于 30km， 由 铭 或 钢 制 Ts>100um 
成 的 金属 化 单 导 体制 成 的 全 填充 通 孔 可 
以 以 一 个 相当 简单 的 方式 实现 。 然 而 ， 
在 唱 圆 厚度 更 大 的 情况 下 ， 这 里 指 大 于 
100um 的 情况 ， 通 孔 的 形式 会 不 同 。 对 
于 铜 通 孔 ， 硅 的 厚度 对 硅 通 孔 在 唱 圆 表 TscÓ0um | 
MANDAN TOF BEAM. EES uoi SR RARER RB RAE A 
侍 衬 底 导 致 更 大 的 硅 通 孔 所 占 面积 ， 这 情况 下 通 孔 的 几何 形状 的 影响 
将 在 某 种 意义 上 限制 了 成 本 ， 并 且 基 于 
铜 的 通 孔 具有 小 的 深 宽 比 。 随 着 晶 圆 厚度 的 增加 ， 为 了 保持 可 制造 的 铜 垫底 的 厚 
度 ， 有 从 全 电镀 到 部 分 电镀 的 趋势 。 钨 通 孔 所 占 的 面积 对 硅 层 的 厚度 并 不 敏感 。 虽 
然 钨 填充 通 孔 的 维度 可 以 被 薄膜 演 积 的 厚度 限制 ， 用 钨 通 孔 的 深 宽 比 是 很 大 的 。 一 
个 宽 范 围 的 硅 层 的 厚度 通常 可 能 有 小 的 硅 通 孔 占 用 面积 IBM 公司 经 常 制造 超过 
100um 的 钨 硅 通 孔 。 

2. 对 通 孔 电阻 和 电容 的 影响 

用 在 硅 通 孔 工 艺 上 的 传导 金属 的 选择 直接 影响 通 孔 的 重要 参数 (如 电阻 和 电 
容 )。 沾 仅 不 同 的 金属 有 不 同 的 电阻 率 ， 而 且 它 它们 各 自 的 工艺 局 限 也 和 它们 可 能 的 
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几何 形状 相关 。 由 于 金属 的 选择 直接 影响 通 孔 的 比例 (如 深 宽 比 ) ， 它 还 直接 影响 
通 孔 的 电阻 。 忽 通 孔 通常 沉积 成 的 薄膜 具有 非常 高 的 深 宽 比 (远大 于 20: 1)， 因 此 
很 窗 ， 往 往 具 有 相对 高 的 电阻 。 为 了 减 小 这 种 影响 ， 多 个 钨 导体 可 以 平行 地 绑 在 一 
起 ， 以 提供 适当 低 的 总 电阻 的 层 间 连接 ， 但 以 增长 的 面积 为 代价 ， 如 图 2-3 左上 方 
所 示 。 铜 比 钨 有 更 好 的 电阻 值 。 镀 铜 通 孔 的 几何 形状 有 低 的 深 宽 比 (通常 从 6: 1 
到 10:1) ， 因 此 它们 能 够 有 很 好 的 低 电阻 连接 。 

通 孔 电容 很 大 程度 受 侧 墙 倾斜 角度 的 有 影响。 通常， 铝 通 和 也 有 将 近 垂 直 的 侧 墙 并 且 没 
有 显著 的 倾 笠 ; 铜 通 孔 可 以 更 容易 地 从 倾斜 人 则 壁 获 益 。 虽 然 侧 墙 倾斜 增加 了 额外 的 通 孔 
所 占 晶 圆 表面 的 面积 ， 但 锥 形 侧 墙 的 引入 可 以 帮助 提升 镀 铜 的 质量 ， 增 加 通 孔 隔离 绝缘 
层 的 省 积 率 。 这 些 演 积 率 受 通 孔 的 几何 形状 和 淀 积 方法 的 强烈 影响 。 这 些 方法 能 帮助 增 
加 最 终 通 孔 隅 离 层 厚度 ， 使 得 通 也 有 更 低 的 电容 ， 从 而 提高 层 间 通信 性 能 。 

2.3.4.2 基于 SOI 3D 集成 中 极 高 的 通 孔 密度 

利用 一 个 埋 层 氧化 物 SO 晶 圆 作为 一 种 加 强 3D 集成 工艺 的 方式 是 可 能 的 ， 如 
图 2-4 所 示 。 这 种 所 谓 的 SOI 方案 在 之 前 发 表 的 文章 中 已 经 被 广泛 地 描述 了 '*， 
这 里 仅 进行 简单 的 总 结 。 不 像 其 他 传统 的 3D CTE, ETF SOI 唱 圆 的 3D 集成 方案 
中 ， 埋 层 氧化 物 可 以 作为 唱 圆 减 薄 工 艺 的 最 终 停止 层 。 这 使 得 衬 底 在 两 个 晶 圆 结合 
前 被 完全 移 除 。 纯 粹 的 湿 化 学 蚀刻 工艺 均 可 使 用 。 例 如 ，TMAH (四 甲 基 氧 氧 ) 可 以 
有 0.5pm/min 的 硅 去 除 速 率 ， 且 对 氧化 硅 具 有 优良 的 选择 性 。 在 工艺 中 ， 通 常 通过 
机 械 技术 移 除 600pm 的 硅 晶 圆 ， 然 后 在 80°C 的 情况 下 使 用 25% 的 TMAH (40pm/h 
的 刻 蚀 速率 ) 刻 蚀 掉 最 后 100pm 到 埋 层 氧 化 层 。 埋 层 氧 化 相对 于 硅 来 说 有 大 于 300: 1 
的 刻 蚀 选 择 性 ， 因 此 可 以 作为 非常 有 效率 的 刻 蚀 停止 层 。 这 种 方法 的 压倒 性 优势 是 ， 
所 有 的 硅 能 被 均匀 去 除 ， 留 下 一 个 非常 平滑 的 〈 小 于 10nm) 表面 用 于 薄 层 氧化 物 键 
合 。 而 事实 上 ， 传 送 电路 层 自动 成 为 有 最 小 的 跨越 厚度 的 晶片 ， 促 进 制 造 工 艺 流程 中 
的 高 密度 层 间 连接 。 因 为 层 间 的 距离 比 传统 的 硅 通 孔 方案 的 距离 小 很 多 ， 通 孔 的 间距 
和 大 小 极 大 地 减 小 了 。 一 个 互 连 通 孔 的 最 小 高 度 可 以 低 到 1 ~2um， 人 允许 硅 通 孔 的 直 
径 小 到 0.2 ~0.25khm ”。 如 果 极 其 严密 的 晶 圆 级 对 准 也 可 以 实现 , 1 ~2wm 量 级 的 间 
距 通 孔 是 可 以 实现 的 ， 相 反 在 宽松 的 硅 通 孔 间 距 下 ， 不 可 能 实现 新 的 系统 级 设计 。 图 
2-4b All 是 传统 的 硅 通 孔 和 使 用 基于 SOL 的 集成 方案 的 铜 填充 硅 通 孔 的 一 组 对 比 。 
尺寸 上 的 比较 显示 了 基于 SOT 的 3D 集成 电路 制造 的 潜在 优势 。 


2.3.5 通 孔 工艺 集成 和 通 孔 类 型 的 重新 分 类 


由 于 通 孔 工艺 集成 方法 必须 符合 具体 的 设计 规则 ， 用 于 制造 硅 通 孔 的 具体 工艺 
流程 对 于 电路 设计 者 来 说 是 重要 的 。 例 如 ， 对 于 某 些 通 孔 ， 其 工艺 本 身 需要 在 流水 
线 后 端 排除 规则 来 允许 硅 通 孔 穿 过 ， 而 有 些 则 不 需要 。 另 一 个 例子 ， 正 面 一 侧 和 背 
面 一 侧 的 通 孔 工艺 的 容 差 是 不 同 的 ， 这 决定 了 具体 的 通 孔 工艺 设计 规则 。 在 许多 早 
期 的 文献 中 ， 术 语 “ 先 通 孔 ”和 “后 通 孔 ”的 使 用 已 普遍 ， 但 这 些 术语 都 导致 在 
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b) c) 
图 2-4 a) SEF SOL 的 面 到 背 3D 集成 示意 图 ; b) 相对 传统 的 硅 厚 度 的 环 状 硅 通 孔 的 矿 才 ; 
c) 用 SOI-3D 技术 的 层 间 硅 通 和 孔 尺 寸 的 对 比 
工业 应 用 中 显著 的 混乱 。 有 时 这 些 指 定 用 于 表示 通 孔 制作 在 基本 集成 电路 品 圆 完成 
之 前 或 之 后 (例如 ， 对 于 在 品 圆 正面 加 工 通 孔 的 工艺 ， 这 些 术 语 用 于 区 分 在 后 病 
布线 之 前 或 之 后 形成 ) 。 在 其 他 情况 下 ， 这 些 术 语 代 表 在 完整 的 基本 品 圆 形成 之 前 
形成 还 是 在 品 圆 减 薄 之 后 形成 (例如 从 减 薄 的 品 圆 的 正面 或 者 背面 )。 一 种 可 以 代 
替 的 基于 工艺 流程 中 通 孔 刻 蚀 时 间 的 分 类 方案 可 用 来 提高 明晰 度 。 这 个 重新 定义 的 
分 类 是 基于 两 个 最 重要 的 对 于 设计 的 实际 考虑 : J 山 这 个 工艺 使 用 的 是 前 面 通 孔 刻 蚀 
还 是 后 面 通 孔 刻 蚀 ?” @ 如 果 是 前 面 通 孔 刻 蚀 ， 刻 蚀 被 完成 在 后 线 布线 之 前 还 是 之 
后 ? 这 些 使 我 们 定义 了 3 个 主要 的 关注 点 : 
1) 后 端 前 正面 通 孔 (F1 类 型 ; 
2) 后 端 后 正面 通 孔 (F2 类 型 ) ; 
3) 背面 通 孔 刻 蚀 〈 衬 底 减 清 后 ，B 类 型 ) 。 
由 于 背面 蚀刻 一 般 在 最 下 面 的 后 线 金 属 层 ， 我 们 忽略 了 这 些 情况 ， 在 这 种 情况 下 在 
后 线 工 艺 中 ， 背 面 通 孔 刻 蚀 得 更 深 。3 种 主要 的 硅 通 孔 的 分 类 大 致 情况 见 表 2-1. 
表 2-1 不 同 硅 通 孔 类 型 的 特性 


通 孔 类 型 —— OSE DE ee B 
CERE 背面 
通 孔 形成 在 减 薄 之 后 
高 温 材 料 兼容 性 i LABIUM cas - 
减 小 的 通 孔 维度 | + |  - ü O - 
低 电路 阻碍 BENE HMM MUN MEME + 
工艺 集成 的 方便 程度 | -| +， O O + 
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2.3.5.1 后 端 前 正面 通 孔 (F1 类 型 ) 

一 种 已 经 在 IBM 公司 和 其 他 地 方 验证 的 硅 通 孔 方 法 是 先 通 了 筷 工 艺 流程 。 用 
这 种 方法 ，F1 通 孔 在 后 线 工 艺 之 前 形成 ， 并 且 这 种 方法 有 人 允许 更 高 温度 电介质 
和 人 金属 填充 工艺 ， 并 具有 高 的 深 宽 比 的 通 孔 形成 的 优点 。F1 通 孔 在 和 传统 的 
CMOS 集成 方面 更 具有 挑战 性 ， 但 是 在 后 线 中 有 低 线 阻 的 优点 。 一 种 特别 的 已 经 
被 描述 的 方法 是 环形 通 孔 几何 形状 大 面积 的 接触 方法 '”。 这 种 结构 利用 一 种 环 
形 通 孔 刻 刨 ， 其 中 环形 的 宽度 足够 窄 ， 从 而 利用 多 种 材料 完整 填充 ， dieit 
摊 杂 、 铜 电镀 或 者 钨 化 学 气相 淀 积 。 对 于 更 高 密度 的 3D 集成 应 用 ， 具 有 小 的 中 
心 核 的 环 体 (该 区 域 通过 所 述 环 的 内 径 定 义 ) 可 以 被 使 用 ， 其 中 环形 的 区 域 被 
绝缘 电介质 填充 并 且 中 心 核 接 着 刻 蚀 和 金属 化 。“ 后 端 前 侧 通 和 孔 ” 可 以 扩展 到 在 
集成 化 之 前 立即 发 生 的 (例如 ， 预 MI 前 侧 通 过 ,经 由 预 M2 前 侧 ) 任何 特定 金 
属 层级 的 所 有 情况 。 它 把 F2 通 孔 和 在 F2 通 孔 加 工 之 后 的 CMOS 制造 完全 分 开 。 

2.3.5.2 后 端 后 正面 通 孔 (F2 类 型 ) 

侍 通 孔 可 以 从 唱 圆 的 前 面 被 刻 蚀 ， 利 用 前 面 对 准 能 力 ， 并 且 还 仍 能 在 后 线 布 线 
完成 之 后 被 制造 。 这 种 F2 工艺 在 其 他 许多 情况 下 更 容易 和 CMOS 工艺 技术 集成 ， 
并 具有 不 干扰 标准 CMOS 制造 工艺 流程 的 优点 。 它 具有 通 孔 略 大 的 不 利 方面 ， 同 时 
由 于 是 通过 后 线 延伸 的 通 筷 ， 也 具有 阻 断 布线 通道 的 显著 缺点 。 由 于 这 个 原因 ， 除 
非 通 孔 尺寸 或 所 需 的 硅 通 孔 的 总 数 很 小 ， 否 则 这 种 通 孔 使 用 价值 很 小 ， 特 别 是 对 于 
高 复杂 度 的 设计 。 

2.3.5.3 背面 通 孔 刻 蚀 〈 衬 底 减 薄 后 ，B 类 型 ) 

各 种 垂直 穿 透 硅 互 连 技术 已 由 IBM 公司 …” 开发。 通常 ， 硅 通 孔 旨 在 
利用 一 种 背部 深 反 应 离子 刻 蚀 的 唱 圆 减 薄 之 后 形成 。 像 这 种 F2 GFL, BK 
型 通 孔 也 有 显著 的 优势 ， 即 在 基本 唱 圆 中 使 用 的 CMOS 技术 不 需要 修改 。 在 
背部 深 反 应 离子 刻 蚀 之后， 绝缘 层 可 随后 施加 到 通 孔 的 内 部 并 从 底部 选择 性 
地 除去 允许 到 品 圆 的 电 接触 。 用 这 种 方式 准备 的 金属 化 大 通 孔 已 经 用 多 种 方 
式 说 明 。 人 例如， 初始 部 分 铜 填充 ， 镀 在 铬 / 铜 BLM 和 铅 / 锡 焊料 蒸发 后 已 被 
验证 。 对 于 介质 层 和 金属 填充 ， 背 面 通 孔 的 纵横 比 通常 有 深 宽 比 的 限制 。 它 
们 也 将 被 显著 减 薄 的 唱 圆 背面 光 刻 对 准 能力 阻 碍 ， 从 而 可 能 不 适合 于 高 密度 
的 3D 集成 。 


2.4 总 结 


为 了 成 为 一 个 有 效率 的 3D 电路 设计 者 ， 理 解 3D 技术 的 工艺 考量 是 重要 的 。 
在 这 一 章 中 ， 我 们 尽力 描述 了 3D 电路 设计 者 需要 的 基本 的 工艺 考量 ， 如 面向 层 间 
的 、 层 间 对 准 的 、 界 面 压 接 设计 、 硅 通 孔 的 维度 和 CMOS 集成 工艺 。 这 些 考虑 都 直 
接 影响 设计 ， 在 一 个 特定 的 3D 工艺 中 ，3D 工艺 的 选择 和 电路 优化 都 是 十 分 重 
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要 的 。 

在 CMOS 图 像 传 感 、 晶 圆 级 芯片 级 封装 、 存 储 器 的 封装 、 硅 通 孔 、 必 片 - 心 古 
和 面积 - 阵列 的 连接 等 领域 的 技术 发 展 具 有 很 好 的 发 展 前 景 ， 并 且 全 3D 集成 电路 
的 发 展 ， 正 在 快速 地 推动 我 们 不 断 前 进 。 我 们 希望 电路 设计 者 读 这 本 书 时 能 得 到 灵 
感 来 学 习 如 何 更 好 地 利用 独特 的 3D 集成 。 
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第 3 章 三 维 (3D) ah by hg dA fura de Pe S BE AX 


Pulkit Jain Pingqiang Zhou Chris H. Kim Sachin S. Sapatnekar 

与 2D 集成 电路 相应 部 分 对 比 ，3D E E A BER eR TEN. BE B a R 
长 提供 了 潜在 的 可 能 。 虽 然 这 种 能 力 对 大 量 应 用 场合 很 有 吸引 力 ， 但 也 在 热管 
理 和 电源 传输 领域 创造 出 了 更 难 突 破 的 设计 瓶颈 。 首 先 ， 随 着 集成 度 的 提高 ， 
单位 英尺 的 热量 增加 会 导致 潜在 的 片上 温度 升 高 。 热 管理 的 任务 必须 同时 通过 
热 沉 和 使 用 基于 热 的 设计 方法 共同 实现 。 这 里 ， 热 沉 是 指 将 内 部 产生 的 热传导 
到 外 部 。 第 二 ， 封 装 引 脚 需 传 输 到 3D 芯片 中 的 电源 量 大 量 增加 ， 导 致 了 可 靠 
的 电源 传输 异常 复杂 。 本 章 给 出 了 这 些 问题 的 整体 总 结 ， 并 人 简 述 了 解决 相关 壮 
贷 问题 的 方案 。 


3.1 Fre 


3D 蕊 片 的 主要 优点 源 于 它们 有 比 2D. 电路 更 高 密度 地 将 电路 集成 的 能 力 。 然 
而 ， 增 加 了 的 集成 度 也 导致 了 副作用 ， 其 表现 在 对 设计 者 有 新 的 限制 和 挑战 。 热 和 
电源 传输 问题 均 可 追溯 到 这 样 的 事实 ， 即 在 基本 相同 的 封装 工艺 下 , k EAJ 3D 
必 片 会 使 用 下 倍 单个 同等 太 寸 2D 心 族 所 需 的 电流 。 其 影响 如 下 : 

1) 3D ws H 77^ E ki T 2D 心 片 的 功 耗 ， 意味 着 其 对 应 产生 的 热量 必须 被 送 
到 外 部 环境 中 。 如 有 果 设 计 技 术 不 考虑 热 并 且 2D 和 3D 电路 的 封装 的 热 特 性 相 
似 ， 那 么 3D 忆 片 的 片上 温度 将 远 高 于 2D 芯片 。 直 线 上 升 的 温度 会 使 芯片 性 
能 具有 不 可 预测 性 ， 并 同时 损害 性 能 和 可 徘 性 。 因 此 ， 片 上 热管 理 是 3D 设计 
的 天 键 问题 。 

2) 封 深 必须 能 够 通过 电源 供电 (Vy 和 地 ) 引 脚 提供 大 倍 于 2D 必 片 的 电流 。 
此 外 ， 由 于 硅 通 和 孔 (TSV) 给 供电 网 络 造成 附加 电阻 ， 电 源 传 输 问题 在 3D IC 中 更 
加 严峻 。 要 知道 可 靠 的 电源 网 格 设计 即使 在 2D 设计 中 也 是 主要 的 瓶颈 。 这 说 明 需 
要 投入 大 量 的 资源 来 构建 3D 芯片 可 靠 的 电源 网 格 。 

本 曹 给 出 了 关于 热 和 电源 网 格 设计 问题 的 概述 。 我 们 首先 在 3. 2 节 中 聚焦 热 问 
题 ， 给 出 热 分 析 方 法 总 结 ， 随 后 是 热 优 化 技术 的 指示 词 ， 其 细节 在 本 书 的 其 他 几 个 
音节 中 有 所 强调 。 之 后 ,在 3.3 WF, RIR T 3D 系统 电源 传输 的 挑战 和 克服 
它们 的 解决 方案 。 
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3.2 三 维 集 成 电路 中 的 热 问题 


3.2.1 执 PDE 


全 芯片 热 分 析 包 括 经 典 热传导 理论 的 应 用 。 其 区 别 在 于 片上 背景 下 特定 的 混合 
问题 。 例 如 ， 片 上 形状 本 质 上 是 直线 型 的 并 含有 和 矩形 形状 对 称 性 ; EN EZA 
源 ， 存 在 于 每 个 3D 堆 秋 层 的 每 一 个 单独 的 层 中 ， 而 用 户 通 常 对 分 析 带 件 层 之 中 的 
温度 感 兴 趣 。 

芯片 中 传统 的 热传导 用 传 里 叶 传导 法 则 描述 ”， 其 声明 热流 量 g( W/m ) 与 温度 7 
(K) 的 逆向 梯度 成 正比 ， 比 例 系 数 为 对 应 材料 的 热传导 系数 后 LWZGm - K) ], Bp 

q=-k, VT (3-1) 

q 在 一 个 区 域 中 的 散 度 是 生成 的 功 耗 与 区 域 中 热能 随时 间 的 变化 率 的 差 
fa, HI 
af r.t) 


V*g-2-khV-VTzs-k, V'Tzsg(r,t) — 


式 中 , 了 是 确定 温度 的 点 的 空间 坐标 ; t 代表 时 间 (单位 : s); g 是 单位 体积 功 耗 密 
RE (单位 为 W/m ) ; c, 是 芯片 材料 的 热 容量 (单位 : (kg + K)); p 是 材料 密度 
(单位 : kg/m ) 。 该 式 也 可 以 写成 如 下 的 热 方程 形式 ， 即 二 次 偏 微分 方程 (PED) 
形式 


(3-2) 


oT ( r,t) 
Pe gi 

TASB k 在 均匀 介质 中 是 各 回 同性 的 。 硅 、 二 氧化 硅 和 金属 (如 铝 和 铜 ) 的 
热 导 率 是 基础 材料 性 能 ， 它 们 的 数值 可 以 查 表 得 到 。 实 际 上 ， 在 分 析 的 早期 阶段 ， 
为 了 优化 目的 ， 集 成 电路 可 假定 是 层级 热 导 率 均 义 的 。 体 层 具 有 体 硅 的 热 导 率 ， 金 
属 层 的 热 导 率 通 常用 平均 方式 计算 得 到 。 这 是 由 于 该 区 域 由 二 氧化 硅 和 金属 混合 得 

到 ， 那 么 根据 区 域 中 的 金属 密度 ， 可 使 用 等 效 热 导 率 进行 宏观 分 析 。 
X (3-3) 的 解 与 瞬 态 热 啊 应 有 关 。 在 稳 态 下 ， 所 有 的 与 时 间 相 关 的 微分 值 趋 

近 于 0， 因 此 ， 该 俩 微分 方程 (BI PED) 的 稳 态 分 析 解 为 

V'T(r) = -E0 (3-4) 


t 


=k, V'T e g(r,t) (3-3) 


即 为 众所周知 的 泊 松 方程 。 

热传导 的 时 间 和 常数 是 百 万 秒 量 级 的 ， 远 远 长 于 当今 VLSI 电路 中 的 亚 纳 秒 量 级 
时 钟 周 期 。 因 此 ， 如 果 电 路 在 同等 功 耗 模 式 下 保持 更 长 的 时 间 周 期 并 且 其 功 耗 密度 
分 布 保持 相对 稳定 ， 那 么 稳 态 分 析 可 以 准确 地 获取 该 电路 的 热 行为 。 即 使 实际 情况 
有 所 不 同 ， 稳 态 分 析 仍 对 早期 和 较 粗 略 的 分 析 非 常 有 用 。 同 理 ， 稳 态 分 析 用 于 在 设 
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计 早 期 阶段 分 析 电源 网 格 网 络 。 另 一 方面 ， 当 有 更 细致 层次 的 输入 或 电路 以 高 于 热 
时 间 常 数 的 时 间 间 隔 多 次 改变 功 耗 模式 时 ， 瞬 态 分 析 则 成 为 可 能 的 和 潜在 的 有 效 
方法 。 

为 获得 式 (3-3) 良好 定义 的 解 ， 必 须 设 定 一 系列 边界 条 件 。 典 型 地 ， 在 芯片 
层级 的 边界 条 件 包括 构建 宏 模型 包 ， 并 假定 这 些 宏 模型 与 恒定 的 周围 环境 温度 互相 
作用 。 

3.2.2 稳 态 热 分 析 算 法 


我 们 下 面 将 基于 有 限 差 分 法 (FDM) 和 有 限 元 法 (FEM) 的 应 用 描述 稳 态 分 
析 技 术 。 两 种 方法 均 将 整个 芯片 离散 并 形成 关于 心 片 中 温度 分 布 到 功 耗 密度 分 布 的 
线性 方程 系统 。FDM All FEM 的 主要 区 别 是 FDM 离散 差分 操作 数 和 FEM 离散 温度 
场 。FDM All FEM 的 主要 优点 是 它们 能 处 理 复杂 材料 结构 ， 特 别 是 人 处理 VLSI 45 
中 不 均匀 互 连 分 布 。 

FDM All FEM 都 会 产生 问题 公式 ， 这 些 问 题 公 式 需 要 巨大 的 线性 方程 系统 的 
解 。 描 述 这 些 方程 的 矩阵 基本 上 是 稀 玖 矩阵 (FDM 中 比 FEM 更 多 ， 可 从 独立 元 素 
标记 stamp 中 看 出 ) 并 确定 是 正和 矩阵 。 有 许多 不 同 的 方法 来 解 这 些 方程 ”。 直 接 法 
通常 使 用 高 斯 变量 消去 法 ， 如 LU 分 解 ， 来 首先 分 解 矩 阵 。 然 后 通过 前 向 和 后 向 减 
法 求解 整个 系统 。 对 于 nxn REM, LU 分 解 的 代价 是 0(n ) 的 运算 复杂 度 ， 
但 实际 上 对 于 稀 玖 系统 只 是 略 超过 线性 而 已 。 随 后 是 前 疝 / 后 癌 减 法 步骤 ， 对 每 行 
ÁN BUSS E et BR bl EY PaL AA EDT O(n) 次 。 如 果 一 个 系统 是 对 大 量 右 手 向 量 求 
值 ， 对 应 不 同 的 功 耗 向 量 ， 那 么 LU 只 需 执 行 一 次 ， 并 且 其 代价 可 由 多 输入 向 量 的 

和 迭代 的 方式 对 大 稀 玻 正 有 限 矩 阵 非 常 有 效 。 这 类 技术 包括 更 多 类 似 高 斯 一 雅 可 
比 法 (Gauss-Jacobi) ， 高 斯 一 赛 德尔 法 (Gauss-Seidel) 的 经 典 方法 及 逐次 超 松 弛 
迭代 ， 也 包括 更 多 的 基于 共 轿 梯度 法 或 GMRES 法 的 当代 方法 。 这 里 的 思路 从 初始 
假设 解 开始 并 接着 提炼 它 以 实现 收敛 。 在 特定 情况 下 可 以 保证 收 全 特别 的 , FDM 
和 矩阵 具有 专门 保证 该 结果 的 结构 。 对 于 FDM 方法 ， 电 源 和 矩阵 分 析 问 题 的 相似 性 引 
入 了 相似 的 解决 技术 ， 包 括 随机 漫步 方法 ”” 和 其 他 如 多 栅 格 方法 "的 技术 。 

3.2.2.1 FDM 方程 的 公式 推导 

稳 态 泊 松 方程 式 (3-4) 可 以 通过 写 出 温度 的 二 阶 空间 偏 导数 分 解 。 其 中 温度 
7 是 直角 坐标 的 有 限 差 。 空间 区 域 可 以 分 解 成 多 个 长 方形 ， 每 个 由 一 个 节点 以 及 分 
别 在 x、y、z 方 向 上 长 Ax, Ay, Az 长 度 的 面 代 表 。 假 设 我 们 感 兴 趣 的 区 域 放置 在 
第 一 个 八 分 区 内 ， 顶 点 处 于 原点 。 我 们 将 使 用 T, ,来 代表 节点 (iAx, jAy, kAz) 
的 稳 态 温度 ， 并 且 芯 片 中 的 每 一 个 节点 都 配 有 一 个 等 式 。 

该 划分 可 用 于 得 到 空间 偏 导 数 的 估计 值 。 例 如 ， 在 * 轴 方 向 上 ， 可 以 得 到 
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Ds gs lige Talg T I Yy É 
2 
a irh Ax 2 Ax (3-5) 
Ó X Ax 
TETTE UELUT 
- i+l j,k An)? 1 j,k (3-6) 


TE y 和 z 轴 方向 上 可 以 得 到 类 似 的 等 式 
EART o, 8,8, 为 


5. T; j pe -Tiu j,k -2T,i i * T; jk 
8, T, Lg E — = T, j+1,k =l k tiai 
5° T; IE - T; J,k+l —2T, i * iiu. (3-7) 


使 用 有 限 差分 进行 泊 松 方程 的 FDM 分 解 得 到 如 下 的 线性 方程 系统 : 
Sas, Brow a 57T Bija 
(Ax)? (Ay)? (Az)? k, 
ee ee giulia 一 种 热传导 理论 中 
的 标准 设备 。 此 设备 通过 所 谓 的 热点 模拟 构架 等 效 热电 路 。 这 里 分 解 的 每 个 节点 对 
应 电路 的 一 个 节点 。 究 态 方程 对 应 “ 热 阻 ”在 节点 和 “ Sona” Renta, 
其 中 节点 对 应 空间 相 邻 区 域 。 “热电 流 源 ”映射 到 电源 上 。 于 是 该 热电 路 中 节点 的 
电压 可 以 通过 求解 电路 计算 得 到 ， 并 且 由 此 得 到 这 些 节点 的 温度 。 数 学 上 ， 可 以 从 
X (3-4) 以 稍微 不 同 的 方式 写 出 分 解 后 等 式 的 方法 得 到 式 (3-8)。 例如 ,在 x 轴 
F, A (3-5) 中 的 有 限 差分 可 写 为 
9 T(r) E | bni tua Ligne a I 


Ox i 











(3-8) 





3-9 
Raga Raj, Jk,A.Ax aii 


AP, R, UE JF H. A, = AyAz， 是 元 件 沿 x 轴 切 开 时 纵 切 面 的 面积 。 由 此 得 


到 以 下 的 分 解 : 
T; ^ MN T; j.k Ea EE T; ik I LA x T; i Desay a T; 
ig «ias ee rer 
T; jA«l] T T; ik T; ik-1 T; i 
[UR d cte 
RP, Cija = Sign AV 是 元 件 中 产生 的 总 功 耗 ，AV S A Ax =A, Ay - A Az. 

式 (3-10) 可 视 为 与 每 个 电路 节点 的 节点 方程 等 效 ， 其 中 该 节点 连接 到 对 应 
其 通过 热 阻 相连 的 6 个 相 邻 元 件 的 节点 ， 如 图 3-1 所 示 。 或 者 说 ， 使 用 FDM 的 热 
分 析 方 程 的 解 相当 于 拥有 线性 电阻 和 电流 源 的 电路 的 解 。 

电路 的 接地 市 点 或 参考 节点 对 应 一 个 温度 恒定 的 节点 ,通常 是 环境 温度 。 如 果 
使 用 绝热 边界 条 件 ， 这 就 意味 着 这 些 节点 连接 到 了 对 应 接地 节点 的 周围 环境 ， 另 一 
方面 ， 对 封 儿 和 散热 带 使 用 一 个 更 细致 的 由 热 阻 和 热 容 的 互 连 结构 组 成 的 热 模 型 是 


REE. del 


= zi 7r (3-10) 


Jk+1 
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ent 1,z) 
(x—l,y,Z) (xt 1,y,z) 
(x.y.2) 
(x, y—1,Z) 


yi) 


图 3-1 在 FDM 离散 化 后 连接 到 节点 (x, y, z) 的 热 阻 


可 能 的 ， 如 在 HotSpot ® 中 使 用 的 模型 ， 也 可 以 使 用 另外 一 种 紧凑 的 降 阶 模型 。 
在 两 种 情况 下 ， 一 个 或 多 个 封装 模型 的 节点 都 将 连接 到 周围 环境 ， 即 认定 的 接地 市 
点 。 这 样 的 模型 获得 可 通过 在 封 狼 上 应 用 (例如 FDM sy FEM) 并 提取 (可 能 稀 下 C 
化 了 的 ) 宏 模 型 ， 此 模型 保持 了 将 封装 连接 到 忌 片 和 周围 环境 的 端口 。 
电路 的 总 方程 可 通过 改良 的 节点 分 析 法 ”得 到 ， 我们 可 进一步 获得 一 系列 
方程 : 
GI=P KADY 
式 中 ，G nxn ke; TAIP ZEnzumi, HP n MPA. A E 
HH G EKER BO: , BAWARA, MPR, FF ATA C. 
对 于 瞬 态 热 分析 , 式 (3-3) 中 时 间 相 关 的 左 侧 项 非 零 。 使 用 与 上 述 方法 类 侯 
的 有 限 差 分 ， 该 式 可 在 空间 领域 分 解 为 
do. QpELG t6 Lu 50.4965, 5T 48575 su 
Py y =k] XAx! ^ — XA» ^ — XASD l po, 
y pc, 
(3-12) 
右 侧 的 时 间 相 关 项 也 可 视 为 通过 单位 体积 热 阻 的 电流 和 热电 流 源 。 男 一 方面 ， 


左 侧 代表 值 为 pc,< 尼 的 电流 源 。 回 想 在 热电 模拟 学 中 ， 温 度 对 应 电压 ， 容 易 理解 
我 们 能 用 单位 体积 容 值 为 pc 的 热 容 代表 左 侧 项 。 


ot 
根据 此 映射 关系 ， 通 过 创建 由 电阻 、 电 流 和 电容 组 成 等 效 网 络 并 使 用 瞬 态 分 析 
的 常规 电气 技术 ， 即 可 实现 瞬 态 热 分 析 。 


3.2.3 有 限 元 法 (FEM) 
FEM 提供 了 另 一 条 解 式 (3-4) 形式 的 泊 松 方程 的 道路 。 虽 然 这 是 一 种 用 于 解 
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此 类 PDE 方程 的 基本 的 、 经 典 的 、 并 被 广泛 使 用 的 技术 ,但 仍 可 使 用 片上 问题 的 
参数 〈 见 3.2. 1 市 开始 处 ) 来 有 效 的 计算 解 。 

在 本 章 参 考 文献 [10] 中 提供 了 当 应 用 在 片上 情况 时 的 一 个 FEM 的 简要 解 
释 。 在 有 限 元 分 析 中 ， 设计 空 间 首 先 分 割 或 网 格 化 8 7 
成 元 素 。 可 以 使 用 如 四 面体 和 六 面体 的 不 同 的 元 素 
形状 。 对 于 片上 问题 ， 所 有 的 热源 均 建 模 为 长 方形 ， 
是 利用 FEM 把 芯片 分 成 8 节点 直角 六 面体 元 素 的 一 
种 合理 分 割 ” ， 如 图 3-2 所 示 。 在 片上 情况 下 ， 六 
面体 元 素 还 简化 了 FEM 过 程 中 预订 一 保持 和 数据 管 
理 的 问题 。 元 系 方 点 的 温度 为 未 知 数 ， 由 有 限 元 分 “图 3- A FEM 中 使 用 的 
析 计 算得 到 。 元 素 内 部 的 温度 的 计算 使 用 插值 函数 8 节点 六 面体 单元 
来 佑 计 元 素 内 部 热 方程 的 解 ， 如 式 (3-13) 所 示 。 


8 
1. £,y,z) Y, Ni (x,y,z)T, (3-13) 
iz] 


sth, N(x, y, z) 是 节点 i 的 形状 函数 ，7, 是 节点 i 的 温度 。 让 a, y, z) E 
为 元 素 的 中 心 ， 并 用 w、d、y 分 别 代表 元 素 宽 度 、 深 度 和 高 度 。 元 素 中 任意 点 的 
温度 使 用 形状 函数 在 FEM 中 插值 ， 此 时 N,(x，y，z) 可 写 为 如 下 的 三 线 函 数 ， 


] 2 v; = 2 pm 
NE, y.) = [2 S -x)) x (3 * EE, — y,) 





2 w d 
[aA ru] (3-14) 
该 限 数 的 特性 是 其 值 在 原点 i 为 1， 在 所 有 其 他 顶点 为 0。 这 满足 了 对 应 原点 
温度 的 基本 要 求 ， 如 式 (3-13) 计算 的 那样 。 
根据 形状 郧 数 ， 热 梯度 g 可 以 使 用 式 (3-13) 得 到 ， 如 下 . 
oT 
ax 
ar 
8 =| 5, |=8T (3-15) 
ar 
az 
式 中 
5N, ON, SN, 
* Eo 
p.|9M ON. X ONs (3-16) 
ôy ôy oy 
EN, 8N, SN, 


& & RR 
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如 在 使 用 改进 的 节点 公式 的 电路 仿真 的 例子 里 ， 为 每 个 元 素 创建 标志 并 添加 到 
全 局 系统 方程 中 ， 得 到 
K.T=P (3-17) 
式 中 , TESTA S S BERI] E. GAA BET Pe b ME FT OR E o 
在 FEM 中 ， 这 些 标志 为 元 素 硬度 矩阵 K， 其 值 可 通过 使 用 基于 变 分 法 的 技术 
确定 。 由 于 该 理论 的 完整 引用 超出 了 本 章 的 范围 并 可 在 FEM 的 标准 文本 ( 如 本 草 
参考 文献 [25] ) 中 找到 ， 注 意 到 最 终结 果 导 出 了 后 续 标志 就 足够 了 。 由 于 本 例 中 
只 考虑 热传导 ， 于 是 有 
K = | P'DBdV (3-18) 


式 中 , 了 是 元 素 的 体积 ; D=diag(h,,, kuy, kh.) 是 3 x3 WHAM, Eph, ie 
ix, y, z|o HEW 3 个 坐标 轴 方 向 各 向 异性 的 情况 下 ， 代 表 在 3 个 直角 坐标 方 回 
上 的 热 导 率 。 在 许多 情况 下 ,=k ,=k, = hk. 

对 于 我 们 的 六 面体 元 素 ， 传导 情 况 下 的 标志 通过 8 x8 的 对 称 窍 阵 给 出 。 该 矩 
阵 的 输入 仅 依 赖 w、h 和 dd， 具体 如 下 : 






































FF 
站 六 
Opa Ec 
p coa a mur 
K= (3-19) 
E FGOGIHAÀB«GSD 
FEHCHBASDNDt 
& ygucr coa 
H bp P E Dc RB A 
式 中 
k, hd k, wd  k, wh k, hd k, wd  k, wh 
~ te ^ 9k ^ 9d * fu 1 IM 
kshd wd kwh k hd kwd kwh 
=e Bhk ^ 3087 e — 9h Ce 
p 5nd k,,wd k, wh _ k hd kwd k,,wh 














igo Wk Od ~~ iw ' 36k ~ 18d 

ok shd k wd k wh „k hd kywd kwh 

“36w. 36h  36d'  36w 18h 18d 
多 个 元 素 的 标志 ， 包 括 独立 传导 和 对 流标 志 ， 如 果 可 应 用 的 话 还 包括 功 耗 向 
， 现 在 其 可 以 县 加 在 一 起 以 得 到 整体 刚度 和 矩阵。 整个 网 格 由 这 些 六 面体 在 网 格 中 
HIR. 每 个 节点 最 多 由 8 个 不 同 元 素 共 享 。 通 过 把 对 应 到 相同 节点 的 元 素 矩 阵 
相 加 ， 元 素 硬 度 和 矩阵 可 规格 化 得 到 全 局 硬度 和 矩阵 开 . 。 全 局 功 耗 向 量 的 每 个 输入 P, 


包含 功 耗 和 对 应 布点 生成 的 热 ， 以 及 可 能 附加 的 对 流 元 素 。 
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所 有 这 些 标志 都 合并 到 全 局 公式 系列 中 ， 见 式 (3-17)。 在 绝热 边界 条 件 下 或 
一 个 节点 连接 到 周围 环境 的 情况 下 ， 对 应 温度 应 设 定 到 周围 环境 温度 。 方 程 和 变量 
的 数量 可 相应 减少 。 例 如 ， 如 果 T, 是 未 知 的 温度 向 量 ， 并 且 子 向 量 的 所 有 市 所 
均 连 接 到 固定 温度 ， 那 么 全 局 硬度 矩阵 可 写 为 以 下 形式 : 


K K F. P 
g,11 g,12 rta P 
ps zin. 向 vim 
T, 的 固定 值 可 以 移 到 等 式 右 侧 以 获得 化 简 的 公式 ， 即 
K, un T; =P, 7 K, s T, (3-21) 


3.2.4 三 维 电 路 热 优 化 


图 3-3 展示 了 3D 电路 的 简单 热 模型 和 克服 这 些 结构 中 热 挑 战 的 技术 梗概 。 图 
中 示 出 了 一 个 热 沉 上 的 3D 芯片 的 结构 体 ， 该 模型 使 用 分 布 式 电源 网 给 分 布 式 电阻 
网 络 供电 ， 该 电阻 网 连接 到 描述 热 沉 的 热 阻 模型 上 。 虽 然 这 是 一 个 粗略 的 模型 ， 但 
其 满足 说 明 的 要 求 。 通 过 运用 热电 模拟 ， 该 网 络 的 电压 代表 了 线 片 上 的 温度 。 温 度 
由 此 可 通过 使 用 以 下 设计 方法 降低 : 





图 3-3 3D 芯片 的 简单 热 模型 


1) 低 功 耗 设 计 : 通过 减 小 芯片 的 功 耗 ， 注 入 网 络 的 热电 流 随 之 减 小 ， 控 制 了 
电压 降 (IR- drop) ， 并 因此 控制 了 电压 。 

2) 通过 重新 排 布 热源 : 热源 的 位 置 可 以 在 物理 设计 (布局 规划 和 布局 ) 过 程 
中 调整 来 获得 优化 的 温度 。 简 单 地 讲 ， 这 意味 着 高 功 耗 模块 要 相互 远离 并 离 热 沉 
更 近 。 

3) 通过 改进 传 热 渠道 : 温度 降低 还 可 以 通过 改进 从 器 件 到 热 沉 的 路 径 的 有 效 
热 叶 率 实现 。 达 到 此 目的 的 一 种 有 效 方 法 是 通过 热 通 孔 的 插入 。 热 通 孔 结构 上 类 似 
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电气 通 孔 但 不 承担 电气 功能 。 它 们 的 主要 作用 是 将 热 从 3D 结构 中 传导 出 去 并 将 其 
传送 到 热 沉 。 | 
4) 通过 改善 热 沉 : 一 个 改善 了 的 热 沉 将 使 得 Ruw 值 减 小 ， 这 将 帮助 降低 温度 。 
我 们 将 在 本 书 的 其 他 部 分 讨论 这 些 技 术 ， 仅 除了 最 后 一 种 ， 因 为 它 超 出 了 本 书 
的 范围 。 


3.3 ”三维 芯片 中 的 电源 传输 


尽管 最 近 3D 芯片 的 研究 热潮 ， 但 在 电路 设计 和 自动 化 圈子 里 仅 有 很 少 关 于 3D 
芯片 电源 传输 的 研究 。 由 于 电源 供电 网 络 (PSN) 阻抗 的 按 比例 缩小 没 能 跟 上 由 于 
有 限 线 网 资源 和 单位 线 网 长 度 恒定 RC 造成 的 器 件 密度 和 操作 电流 的 增加 ， 片 上 
电源 供电 噪声 在 现代 系统 中 已 经 恶化 。 正 如 前 面 说 明 的 ， 这 种 情况 在 3D 芯片 中 更 
加 恶化 。 在 3D 芯片 中 增加 的 IR 和 Ldi/d: 供电 噪声 会 引起 其 工作 速度 的 更 大 变化 ， 
从 而 导致 更 多 的 时 序 违反 。 寄 生 电 感 引 发 的 供电 噪声 过 冲 会 使 可 靠 性 问题 恶化 ， 如 
氧化 层 击 穿 、 热 电子 注入 (HCI) 和 负 偏 压 温度 不 稳定 性 (NBTI) ^" (其 受 升 高 
的 温度 影响 而 变 严 重 ) 。 综 上 所 述 ， 片 上 电源 传输 将 成 为 3D 芯片 的 关键 挑战 。 

本 节 以 传统 高 性 能 2D 电路 的 电源 传输 问题 的 基本 概述 开始 。 接 着 ， 在 3. 3. 2 
节 中 研究 3D 芯片 电源 传输 问题 、 建 模 技术 以 及 和 传统 2D 芯片 的 比较 。3. 3.3 节 中 
说 明了 试图 采用 3D 拓扑 结构 IC 技术 以 减轻 特定 电源 传输 问题 的 几 个 可 信 的 结构 ， 
随后 说 明了 几 种 用 于 电源 网 格 优化 的 3D 特定 CAD 技术 。 


3.3.1 电源 传输 基础 


根据 按 比例 缩小 路 线 图 ， 即 使 是 2D 芯片 而 言 ， 未 来 高 性 能 芯片 也 将 需要 多 个 
总 电流 超过 100A/em^ 的 低 于 1V 供电 电压 ”。 针 对 高 性 能 芯片 的 传统 电源 传输 方 
法 采用 了 称 为 稳 压 器 模块 (VRM) 的 DC-DC 转换 器 。VRM 通常 安装 在 主板 上 ， 
通过 外 部 连接 提供 电源 至 芯片 ， 如 图 3-4a 所 示 。 片 内 电源 传输 网 络 如 图 3-4b 所 
示 。 图 中 示 出 了 一 个 微 处 理 器 PSN 模型 的 一 部 分 o h VO 引 脚 和 绑 定 线 引发 的 
封装 的 寄生 参数 建 模 为 电感 和 电阻 的 串联 。 图 中 的 去 耦 电 容 用 于 抑制 瞬 态 噪声 并 包 
括 外 部 去 耦 电容 和 MOS 栅 极 电容 等 多 种 电路 元 件 的 电容 。 

心 片 作为 分 布 式 品 声 源 从 不 同位 置 和 不 同 频率 吸取 电流 ， 引 起 供电 传输 缺 陶 。 
到 达 处 理 器 的 供电 受 通过 封装 的 IR 和 Ldi/dt 下 降 的 影响 组 成 了 供电 噪声 ， 封 装 阻抗 
很 大 程度 上 不 受 工艺 按 比 例 缩小 影响 。 然 而 按 比 例 缩小 仍然 导致 了 一 些 意 想 不 到 的 片 
上 影响 ， 即 从 一 个 工艺 节点 到 下 一 个 工艺 节点 不 断 增加 的 电流 和 更 快 的 瞬 态 转换 。 前 
者 使 电压 降 恶化 ， 后 者 加 剧 了 Ldi/dt 降 。 在 以 上 这 些 影响 之 上 是 全 局 谐振 噪声 ， 在 
或 徘 近 其 频率 处 供电 阻抗 更 容易 于 出 现 较 大 降幅 。 伴 随 这 些 级 别 变 高 的 噪声 和 随 内， 
按 比 例 缩 小 而 减 小 的 噪声 容 限 ， 回 大 功 耗 芯片 的 可 靠 的 电源 传输 成 为 主要 的 挑战 。 
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图 3-4 a) 传统 电源 传输 结构 “”@ 2007 IEEE; b) 片上 电源 网 格 


典型 电源 网 格 的 噪声 谱 如 图 3- Sa 所 示 。 噪 声 的 DC 部 分 由 穿 过 封装 和 电源 网 
格 的 电压 降 决 定 。 图 中 的 第 一 个 尖峰 对 应 其 谐振 频率 ， 即 f,, =1/(2m VLC), #— 
般 出 现在 100 -300MHz 的 范围 内 。 在 处 理 需 循环 操作 或 唤醒 过 程 中 会 触发 此 频率 
的 激励 。 可 以 在 图 中 看 到 的 另外 几 个 尖峰 源 于 时 钟 频率 的 开关 动作 及 其 高 阶 谐 波 ， 
或 者 源 于 本 地 谐振 : 对 应 的 噪声 一 般 幅 度 上 比 本 征 谐 振 频 率 小 一 个 数量 级 。 
图 3-5b 示 出 了 一 个 独立 测试 结构 的 供电 阻抗 实测 谱 ， 其 证 实 了 图 3-4 所 示 的 仿真 
模型 。 特 定 频率 的 噪声 是 通过 在 该 频率 的 阻抗 和 电流 分 量 的 乘积 估计 的 ” 。 
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图 3-5 a) 供电 噪声 谱 仿真 ; b) 供电 噪声 实测 结果 "QQ 2006 IEEE 


3.3.2 三 维 必 睛 电源 传输 : 模型 和 挑战 


ERW, RIIKE 3D 芯片 的 电源 传输 问题 并 在 此 框架 下 分 析 PSN 噪声 问题 。 
图 3-6 ”中 示 出 了 一 种 基于 片上 和 封装 结合 的 电源 供电 结构 的 分 布 式 模型 的 
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3D 芯片 模型 。 电 源 输入 封装 ， 通 过 分 布 在 最 底层 芯片 上 的 电源 VO HE kx, Un 
使 用 TSV 到 达 其 他 上 层 芯 片 。 芯 片 范围 可 以 分 成 单元 ， 即 在 一 对 相 邻 的 电源 和 地 
引 脚 之 间 相 同 的 方块 区 域 ， 如 图 3-6a 所 示 。 在 图 3-6b 中 ， 这 些 单元 以 相 邻 TSV H] 
几 个 子 单 元 组 成 的 网 格 的 形式 连接 起 来 。 从 电学 上 看 ， 每 个 TSV 建 模 为 电阻 和 电 
感 组 合 的 串联 。 平面 方块 单元 采用 集 总 式 模型 ， 其 中 的 Rai, Ji 和 Ci 分 别 代 表 网 格 


电阻 、 有 效 电流 密度 和 芯片 单位 偏 压 耦合 电容 。 由 于 引 脚 压 焊 点 由 4 个 独立 单元 共 
享 ， 封 装 参数 以 1/4 归 一 化 。 子 单元 可 多 次 重复 以 实现 完整 的 3D 功能 模块 。 
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a) 把 供电 网 格 分 入 独立 单元 b) 此 单元 的 模型 
图 3-6 3D IC 分 布 式 模型 


电源 网 格 模型 必须 与 3D 工艺 相 结 合 。 图 3-7a 示 出 了 MIT 林肯 实验 室 ” 的 产 
品级 0. 18pm 3D 工艺 的 3D 忆 片 纵 切 面 模 型 。 该 工艺 包含 3 个 心 片 展 。 绑 定 压 焊 点 
在 顶层 ， 热 沉 一 般 在 底层 之 下 。 处 理 需 或 其 他 功 耗 密集 电路 将 被 最 理想 地 放置 在 底 
层 紧 靠 热 沉 的 位 置 。 

为 满足 电 和 热传导 ， 必 片 层 间 通过 TSV 相连 。 图 3-7b 示 出 了 连接 了 顶层 背 金 
A RU Ee ie B] E ER TS 的 纵 切 面 扫 摘 电子 显微镜 (SEM) 的 图 像 。 一 个 简化 
的 电阻 模型 秋 加 在 图 上 。 基 于 实际 参数 提取 ”， 每 个 堆 秋 的 锥 状 TSV 在 该 工艺 下 
的 电阻 为 1Q。 顶 层 和 中 间 层 的 正 一 反 相 对 ， 而 中 间 层 和 底层 正 一 正 相 对 ， 使 项 层 
到 中 间 层 的 路 径 更 长 ， 电 阻 更 大 。 该 配置 模型 可 以 通过 将 TO, 的 通 孔 总 电阻 打 断 为 
0.250, 0.50 410.250 的 3 段 来 实现 ， 如 图 3-7b 所 示 。 由 于 在 实验 中 发 现 TSV 电 
感 和 电容 的 值 相当 小 ， 故 可 以 忽略 “。 

相对 于 传统 2D 的 情况 ,供电 路 径 中 的 TSV 电阻 对 3D 电源 传输 提出 了 新 的 挑 
战 ，”。 首 先 ， 由 于 PSN 网 络 中 增加 的 电阻 ， 较 低 的 芯片 层 承 受 了 更 多 的 PSN ik 
声 。 此 外 ， 由 于 功 耗 密集 的 电路 必须 放置 在 底层 ， 使 得 可 靠 的 电源 传输 更 加 困难 。 

相 比 传统 2D 芯片 的 模型 , 3D 情况 下 有 两 点 重要 的 变更 。 首 先 ， 对 于 同样 的 电 
路 ， 缩 小 了 的 必 片 面积 有 效 地 增加 了 封 交 的 寄生 人 参数、 由 于 供电 引 脚 和 绑 定 线 的 数 
量 与 供电 电流 的 比率 减 小 ,封装 电阻 和 电感 的 比重 增加 。 其 次 ， 每 芯片 层 噪 声 特 征 
受 供电 路 径 上 附加 的 TSYV 电阻 影响 。 

图 3-8a 示 出 了 已 开发 的 用 来 比较 3D 和 2D 情况 的 电路 模型 。 这 些 模型 基于 分 
布 式 供电 网 络 模型 的 阻抗 包 络 的 曲线 拟 合 ， 以 及 典型 去 耦 电 容 和 封装 寄生 参数 值 。 
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a) b) 


图 3-7 a) 3D FD-SOI 工艺 的 纵 剖 面 图 ; b) SAR SEM 
图 像 对 齐 的 简化 通 孔 模型 ”@ IEEE 2007 


在 3D 中 ， 我 们 发 现 供电 路 径 将 被 TSV 主导 。 相 等 尺寸 中 的 必 片 总 电容 〈 在 2D fi 
况 下 为 3nF) 在 3D 芯片 中 将 由 3 个 芯片 层 等 分 。 此 外 ， 由 于 3D 必 片 太 才 的 缩小 ， 
电源 引 脚 的 数量 会 是 2D 情况 下 的 1/3, i6: 3 倍 封装 寄生 电感 和 电容 值 增 加 。 

由 于 底层 噪声 可 以 预料 是 最 差 的 ， 我 们 将 该 层 的 阻抗 啊 应 曲线 与 2D 情况 比 
较 。 归 一 化 阻抗 比较 见 图 3-8a， 其 说 明了 以 下 几 点 : 

1) 低频 阻抗 : 在 低频 段 ， 电 容 和 电感 分 别 是 开路 和 短路 电路 。 因 此 ，2D 模型 
的 电感 值 为 2 x (0.010 +0.030) 20.080, 而 3D 模型 阻抗 为 2 x (0.030 + 
0.050 +0.10 +0.050) =0.46Q0。 这 说 明 对 于 等 量 电 流 , 3D 芯片 将 出 现 相 对 于 2D 
芯片 0.46/0. 08 25. 75 倍 的 电压 降 2 。 

2) 谐振 峰 阻 抗 : 谐振 峰 是 由 阻尼 量 和 电感 值 决 定 的 。 其 中 ，3D 电感 增加 的 比 
重 被 落 在 底层 的 更 大 的 电阻 提供 的 阻尼 抵消 ， 人 尖峰 显示 了 相对 值 。 

3) 谐振 频率 : 二 维 电 路 谐振 频率 一 般 在 50 ~300MHz 之 间 , Hi f, 2 17(20 VLC) 
决定 。 如 果 3D 的 等 效 电容 与 我 们 的 模型 相同 ， 受 增加 的 三 的 影响 ， 峰 值 会 移动 到 如 
图 3-8c 所 示 的 更 低 的 频率 处 。 

4) 高 频 阻 抗 : 在 高 频段 ， 由 于 底层 电容 的 屏蔽 效应 ， 即 电容 在 高 频 视 为 虚 短 
电路 的 事实 ，2D 和 3D 阻抗 趋向 一 致 。 

显然 ， 相 较 于 对 应 的 2D iib, DC 供电 噪声 成 为 3D 设计 中 更 受 关注 的 问题 。 

为 了 理解 不 同 必 乒 层 的 供电 噪声 行为 ， 我 们 通过 分 析 仿真 所 得 的 跨 不 同 忆 片 层 
的 阻抗 谱 〈 见 图 3-8c) 得 到 3D 芯片 模型 。 关 键 结果 如 下 : 


O 2R 原 书 误 ， 应 为 卫 。 一 一 译 者 注 
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c) 
图 3-8 a) 用 于 对 比 2D 和 3D 阻抗 啊 应 的 简化 PSN 模型 ; b) 2D Al 3D 间 阻 抗 响应 比较 ; 
c) 3D IC 所 述 3 层 的 阻抗 响应 © IEEE 2007 


1) 低频 阻抗 : 正如 所 料 ， 由 TSV 电阻 决定 的 DC 和 低频 阻抗 在 较 低 芯片 显 出 
恶化 趋势 。 

2) 高 频 阻 抗 : 在 高 频段 ,顶层 有 最 大 阻抗 ， 而 中 间 层 具有 最 小 的 AC 阻抗 。 
虽然 这 看 上 去 与 直观 判断 相反 ， 但 是 可 以 解释 为 相 邻 层 间 电容 的 屏蔽 /去 耦 效应 ， 
其 造成 了 有 效 阻尼 电阻 在 中 间 层 最 大 且 顶 层 最 小 。 以 上 趋势 在 谐振 峰 以 上 的 高 频段 
更 明显 。 

3) 谐振 行为 : 由 于 上 述 的 屏蔽 效应 在 中 频段 不 明显 ， 谐振 峰 延 续 落 在 低频 的 
趋 妇 ， 同 时 奔 层 成 为 最 差 的 情况 。 因 此 ,仿真 曲线 中 注 出 了 缩小 了 的 噪声 容 限 。 此 
外 ， 因 为 各 层 的 电容 效应 均 相 同 ， 故 谐振 频率 基本 一 致 。 

总 结 一 下 ， 直 到 谐振 频率 为 止 ， 底 层 的 AC 阻抗 最 差 。 此 点 以 后 顶层 具有 稍 大 
的 阻抗 。 鉴 于 热 约 束 声明 底层 最 倾向 于 包含 大 电流 消耗 模块 ， 底 层 的 供电 噪声 
( 即 电 流 阻 抗 积 ) 将 成 为 3D 必 片 实现 应 重点 关注 的 问题 。 

上 述 讨论 的 目标 是 为 了 提供 3D 心 片 电源 传输 的 一 些 定量 理解 。 需 要 指出 的 
是 ， 这 些 数据 与 特定 的 工艺 相关 并 随 工艺 改变 而 变化 。 例 如 ， 如 果 工 艺 允 许 更 低 电 
阻 和 更 小 面积 的 TSV， 那 么 路 径 中 的 阻抗 瓶颈 将 出 现在 供电 焊 盘 上 ， 同 时 PSN 模 
型 需要 考虑 该 因素 。 此 外 ， 不 考虑 该 因素 时 ，PSN 仍 最 有 可 能 成 为 3D 设计 的 关键 
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问题 。 
3.3.3 控制 PSN 噪声 的 设计 技术 


严重 电源 传输 瓶颈 的 出 现 使 一 种 全 新 的 3D 芯片 电源 传输 方案 成 为 必需 。 本 六 
中 ， 我 们 将 介绍 针对 该 问题 几 种 可 能 的 解决 方案 。 

3.3.3.1 片上 电压 调制 

一 种 解决 3D 芯片 电源 传输 问题 的 方法 (也 适用 于 传统 2D 必 片 ) 是 让 DC- DC 
转换 模块 尽量 靠近 处 理 器 ， 如 图 3-9 ”所 示 。 增 强 外 部 电压 和 本 地 降 压 转换 能 保证 
穿 过 外 部 封装 的 电流 1, 较 小 ， 并 降低 按 比例 缩小 对 外 部 封装 阻抗 的 要 求 。 此 外 ， 
该 负载 点 (PoL) 调制 将 来 自负 载 与 外 部 封装 和 去 耦 电容 的 全 局 谐振 噪声 有 效 
隔离 。 





图 3-9 在 负载 附近 DC-DC 转换 器 的 插入 ”© IEEE 2004 


传统 上 ， 单 片 DC- DC 转换 器 的 效率 受 片 上 允许 的 小 物理 电感 的 限制 。 典 型 片 
下 DC-DC 转换 需要 1 ~ 1004H 的 高 Q 电感 ”， 而 其 由 于 面积 需求 较 大 很 难 在 片上 
实现 。 随 着 电源 传输 问题 愈 发 严峻 ， 研 究 焦 点 集中 在 通过 工艺 技术 构建 更 紧凑 的 电 
感 ， 如 薄膜 电感 ”， 或 集中 在 更 高 效 但 更 昂贵 的 通过 多 相 / 交 错 拓扑 结构 实现 的 
DC-DC 转换 器 。 显 然 ， 将 这 些 集成 到 片上 有 困难 ， 其 需要 一 整套 不 同 的 工艺 
过 程 。 因 此 ， 如 3D 忆 片 中 三 维 品 圆 级 堆 和 琶 提 供 的 ， 使 堆 麦 异种 工艺 的 不 同 品 圆 成 
为 可 能 的 方法 ， 是 实现 片上 开关 转换 器 的 目 然 的 解决 方案 。 

3.3.3.2 Z 轴 方向 电源 传输 

Z 轴 或 3D 电源 传输 “” ， 其 中 在 3D HEA rp PSN 垂直 地 与 处 理 器 集成 ， 保 
证 了 片上 DC- DC 转换 具有 有 吸引 力 的 解决 方案 。 图 3-10 示 出 了 此 使 用 品 圆 一 品 
圆 集成 的 z 轴 向 电源 传输 技术 的 虚拟 图 ”。 这 仍然 需要 所 有 的 无 源 器 件 (包括 
电感 和 电容 ) 必须 与 电源 开关 和 控制 电路 单 片 集成 。 这 个 想法 刺激 了 相关 人 研究 
的 开展 ， 并 促进 了 此 类 结构 的 实现 ， 本 章 参 考 文献 [39] 中 使 用 两 个 交织 的 降 
压 变换 电路 ， 此 开关 变换 频率 为 200MHz 上 且 输出 电流 为 S00mA。 在 未 来 ， 我 们 将 
见 到 这 样 的 多 层 3D 必 片 ， 其 中 整个 性 片 层 用 于 电压 调制 ， 并 集成 了 多 种 无 源 吉 
件 及 其 他 电路 。 

z 轴 电 源 传 输 的 一 个 主要 问题 是 将 一 个 忆 片 层 用 于 片上 DC-DC 转换 器 的 面积 
消耗 ， 其 尺寸 与 品 圆 一 唱 圆 3D 工艺 中 的 处 理 器 相当 。 此 外 ， 用 于 DC- DC 转换 器 
的 高 效 开 关 调 制 器 需要 大 尺寸 无 源 器 件 的 单 片 实现 。 另 一 方面 ， 典 型 的 线性 调制 
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图 3-10 基于 monolithic 电源 转换 和 唱 圆 一 晶 圆 绑 定 -”G@ IEEE 2007 


ar, BARRY), (ARB RR IK. 

3.3.3.3 多 层 电 源 传输 

多 层 电 源 传输 (MSPD) 方案 “” 是 一 种 实现 高 效 的 片上 DC- DC 转换 和 供电 
品 声 前 减 的 可 靠 技 术 的 方案 。 本 章 参 考 文献 [20] 中 说 明了 这 种 思路 对 包含 了 堆 
Ab E s AFA HJ 3D 芯片 结构 特别 有 吸引 力 。 

图 3-11 说 明了 MSPD 的 基本 概念 。 传 统 供电 网 络 的 一 种 电路 图 如 图 3-11a 所 
示 ， 其 中 所 有 电路 从 单独 的 电源 汲取 电流 。 图 3- 11b 示 出 了 该 多 层 电源 传输 网 络 ， 
于 电路 在 两 个 供电 楼 层 之 间 工 作 。“ 楼 层 ” 的 概念 仅 为 了 准确 说 明 该 电源 传输 方案 
的 本 质 ， 与 电路 物理 上 堆 秋 在 层 中 的 3D 芯片 结构 相反 。 在 此 方案 中 ， 消 耗 的 电流 
在 “2Vu 一 Vs 楼层 ”， 随 后 在 “2V 一 Gnd BE” Ti. 由 于 此 内 部 循环 ， 在 总 功 
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a) b) 


图 3-11 a) 传统 的 电源 传输 ; b) 多 层 电源 传输 方案 04 。Q@ IEEE 2005 
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耗 基 本 相同 的 情况 下 仅 需 要 相对 于 传统 方案 一 半 的 电流 。 减 小 的 电流 对 减 小 供电 只 
志 有 利 。 因 此 ， 在 最 好 的 情况 下 ， 如 果 两 个 子 电 路 的 电流 完全 平衡 ， 中 间 供 电路 笃 
将 吸收 去 电流 。 这 将 使 该 电源 轨 的 噪声 最 小 化 ， 如 图 3-11 Bras. 

该 技术 的 主要 问题 是 需要 独立 的 体 岛 。 这 在 典型 体 工艺 中 很 难 实现 。 然 而 ， 如 
果 我 们 考虑 3D 芯片， 这 些 层 一 开始 就 是 电气 隔离 的 ， 这 让 MSPD 变 得 非常 有 吸 
引力 。 

图 3-12 是 简单 的 3D 芯片 存储 器 (M), Feed (M), Absa (P) WAME 
模型 。 为 在 模型 中 描述 M 和 了 模块 的 区 别 ， 我们 假定 后 者 吸收 前 者 两 倍 的 电流 。 
我 们 用 I 和 2 分 别 表示 这 两 个 电流 。TSYV 带 来 的 层 一 层 路 径 阻抗 用 7 表示 。 要 注意 
r 是 与 路 径 上 并 行 TSV 数目 成 反比 的 。 


顶层 


Q v 





图 3-12 3D IC 中 用 于 电源 传输 网 络 的 基准 模型 。 其 中 处 理 
器 假定 消耗 存储 器 两 倍 的 电流 © IEEE 2008 


考虑 图 3-12 中 3D 芯片 的 基准 电路 模型 ，MSPD 应 用 会 引发 大 量 不 同 的 电气 等 
效 结构 ， 如 图 3-13 所 示 。 其 中 ， 每 层 一 层 路 径 阻 抗 用 R 表示 。 注 意 到 MSPD 需要 
男 外 一 条 供电 轨 ， 意 味 看 供电 轨道 的 数目 增长 为 原先 的 3/2。 如 果 我 们 假定 图 3-12 
和 图 3-13 中 的 所 有 结构 归 一 化 到 供电 路 径 通 孔 的 固定 数目 上 ， 其 后 的 每 条 供电 路 
径 将 含 2/3 的 专用 通 孔 。 这 将 成 比例 对 应 为 3/2 倍 的 阻抗 证 增长 ， 即 R=1. 5r, 

一 个 细 化 到 3D IC 每 层 的 MSPD 应 用 可 得 到 如 图 3- 13a 的 平衡 的 PSN 配置 。 其 
中 ， 每 层 的 电源 供电 域 被 分 为 相等 的 两 亚 层 ， 电 流 在 不 同 层 中 和 之 间 ， 从 一 亚 层 循 
环 至 万 一 亚 层 。 这 种 结构 平衡 了 固有 的 平衡 拓扑 结构 以 得 到 供电 噪声 级 别 最 大 程度 
的 降低 。 然 而 ， 实 现 它 有 明显 的 挑战 ， 特 别 是 在 体 工 艺 下 体 电 压 隔 离 的 情况 下 。 
图 3-13b 是 3D IC 中 已 分 离 层 中 实现 MSPD 应 用 的 粗略 结构 图 。 其 中 ， 除 了 保持 电 
流 从 一 个 高 的 电压 层 循环 到 较 低 电压 层 ， 每 层 只 有 一 个 专用 亚 层 和 单独 的 体 结构 。 
有 要 注意 到 工作 电流 在 底层 的 处 理 右 和 另外 两 层 的 存储 融 之 间 循 环 。 这 种 结构 保证 了 
实现 其 的 过 程 较 容 易 ， 但 由 于 在 处 理 希 和 存储 需 之 间 有 较 大 的 开关 电流 差异 而 消除 
平衡 效果 ， 对 于 降低 供电 噪声 这 种 结构 可 能 并 不 有 效 。 在 此 情况 下 使 MSPD 有 效 需 
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平衡 PSN 粗 调 PSN 粗 调 PSN 
(M-M-P) (M-M-P) (M-P-P) 
a) b) c) 
图 3-13 MSPD 在 3D IC 中 的 应 用 ”a) 在 存储 器 一 存储 器 一 处 理 器 中 的 平衡 PSN; 
b) 在 存储 器 一 存储 器 一 处 理 器 中 的 粗糙 PSN; e) 具有 相同 层 的 粗糙 PSN, HP, 
M 和 了 P 分 别 代 表 存 储 器 和 处 理 器 模块 ，TSYV 数目 固定 为 R=1.5rG@ IEEE 2008 


要 将 穿 过 不 同 供电 路 径 的 TSV 重新 排 布 。 相 反 ， 如 图 3-13c HR, WRR 3D IC H 
有 相 类 似 的 层 ， 如 双 处 理 器 堆栈 ， 将 在 两 个 处 理 需 模块 之 间 实 现 开 关 电 流 的 平衡 。 
这 可 能 提供 一 种 粗 化 的 多 层 PSN 思路 更 有 效 的 实现 方法 并 能 在 更 容易 实现 的 同时 


潜在 地 降低 DC 供电 噪声 。 然 而 ， 由 于 中 间 层 与 确 部 热 沉 隔离 ， 热 问题 很 可 能 是 这 
里 的 重要 关注 点。 


表 3-1 给 出 了 以 上 讨论 的 总 结 ， 说 明了 如 果实 现 问 题 可 以 得 到 令 人 满意 
的 重视 并 可 成 功 ， 那 么 MSPD 可 以 保证 较 大 的 PSN 噪声 削减 。 从 最 后 一 列 我 
们 可 以 看 到 由 于 电流 循环 ，PSN 自身 的 功 耗 同时 降低 。 这 也 是 MSPD 的 附加 
RR 
# 3-1 各 种 MSPD 方案 概述 


SOI 中 容易 ， 


而 在 体 硅 中 难 
所 需 TSV/ 电 源 
压 焊 点 的 再 分 配 


在 体 硅 和 SOL 中 容易 ， 
而 中 间 层 出 现 热 问题 








粗 度 PSN 


粗 度 PSN 


图 3-14 给 出 了 MSPD 的 全 部 优点 以 及 其 与 多 种 讨论 过 的 方案 的 比较 ， 其 中 包 
括 不 同 漏电 流 值 下 的 DC 噪声 以 及 得 到 的 PSN XE UR EO. iode fl DOS JW; SAUDI 
表示 的 所 谓 非 MSPD 的 3D 集成 电路 模型 为 准 归 一 化 。 很 明显 ，MSPD 技术 基于 不 
同 的 拓扑 结构 和 漏电 流量 ， 保 证 了 20% ~40% 的 DC 噪声 削减 。 我 们 有 趣 地 发 现在 
MSPD 情况 下 DC 噪声 随 泼 电流 削减 。 
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归 一 化 值 





DC iih pa DC 噪声 DC 噪声 PSN 功 耗 
(u=0) (u=0.25) (u=0.5) 


图 3-14 用 于 不 同 机 制 的 DC 噪声 和 PSN HE YR?” 。 
HEt, 代表 漏电 流 与 总 工作 电流 的 比值 @OIEEE 2008 


3.3.4 控制 PSN 噪声 的 CAD 技术 


3.3.4.1 去 耦 电容 定位 

现 有 几 种 增加 电源 网 格 可 年 性 并 控制 电源 网 格 噪声 的 技术 是 可 行 的 ， 如 线 网 加 
宽 、 网 格 拓扑 结构 优化 ， 以 及 去 耦合 电容 的 插入 ” 。 所 有 这 些 技术 中 ， 去 耦 电容 
是 可 证 明 的 减 小 瞬 态 噪声 最 有 效 的 方法 。 去 耦 电容 作为 本 地 电流 池 ， 能 满足 由 功能 
模块 /单元 的 电流 需要 引起 的 突然 的 电 涌 ， 并 且 同 时 保持 供电 电压 级 别 相对 稳定 。 
对 于 谐振 噪声 使 用 去 耦 电容 的 有 源 /无 源 阻 尼 方 法 也 被 提出 一 ”…” 。 

传统 实现 去 耦 电 容 的 工艺 是 基于 广泛 用 在 鲁 棒 电 源 传输 网 络 设计 中 的 SiO, 基 结 
构 的 。 三 维 电 源 网 格 优化 在 本 章 参考 文献 [19, 27, 43] 中 有 所 研究 。 不 同 于 2D fi 
Db, 3D 电源 网 格 优化 中 使 用 CMOS 去 看 电容 出 现 了 新 的 考虑 因素 。 具 体 如 下 : 

1) HF CMOS 去 耦 电 容 通 稼 使 用 需 件 层 之 上 的 空白 区 域 制造 ， 它 们 必须 与 TSV 
区 域 或 者 3D 通 孔 的 接触 焊 盘 争夺 空白 空间 ， 这 导致 新 的 资源 分 配 问题 。 解 决 该 分 配 
问题 的 一 种 方法 是 增加 芯片 太 才 以 给 CMOS 去 耦 电容 留 出 空间 。 然 而 ，3D 电路 相对 
2D 电路 的 一 个 优点 正 是 它们 减 小 了 芯片 的 尺寸 : 增加 芯片 尺寸 与 此 优点 背道而驰 。 

2) 漏电 流 功 耗 是 3D 电路 设计 的 一 个 重要 问题 。 添 加 到 3D 电路 上 的 CMOS AH 
电容 将 消耗 额外 的 漏电 流 功 耗 ， 并 使 情况 恶化 。 在 新 型 高 大 电介质 提出 的 情况 下 ， 它 
们 尚未 广泛 使 用 并 且 即 使 它们 被 采用 ， 也 仪 能 临时 性 地 减轻 栅 电 极 漏电 问题 。 

本 章 参 考 文献 [49] 中 的 研究 提出 了 在 3D 电源 网 格 中 的 去 耦 电容 定位 方法 ， 
同时 使 用 了 传统 CMOS 去 耦 电容 和 金属 一 绝缘 层 一 金属 (MM) KRELER, 与 
CMOS 电容 在 带 件 层 中 构建 不 同 ，MIM 电容 在 金属 层 间 制造 。 这 些 结构 具有 高 电容 
密度 和 低 漏 电流 密度 emm 

图 3-15 示 出 了 3D 电路 中 CMOS 和 MIM 电容 的 位 置 。MIM 去 耦 电容 在 每 个 2D 
层 中 通常 使 用 项 部 两 层 金 属 制造 。MIM 去 耦 电容 的 一 个 显著 优点 源 于 其 极 低 的 漏 
电流 。 在 本 草 参 考 文献 [34] 中 记录 的 250nF 的 MIM 去 耦 电容 漏电 流 约 为 1.0 x 
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107A (其 中 漏电 流 密度 为 3.2 x 10  A/em^) ， 与 此 MIM 并 联 的 25nF CMOS ZB 
电容 漏电 流 约 为 3.2 x 109A (其 中 漏电 流 密度 为 1.45 x 10 ^ Aem). 


eru 


: : p d 
MIM RGA —— m ET 





图 3-15 在 一 个 3 层 金属 的 2D 芯片 层 中 的 MIM fil CMOS ABH zr (9 IEEE 2009 


然而 ，MIM 去 耦 电容 不 能 无 条 件 地 用 于 取代 CMOS 去 耦 电容 ， 因 为 它们 的 使 用 有 
代价 ， 即 引入 了 对 试图 穿 过 它们 线 网 的 布线 禁区 。 在 本 曹参 考 文 献 [49] 中 ， 同 时 使 用 
CMOS 和 MIM 去 耦 电容 的 规划 问题 归结 为 线性 编程 (LP) 问题 ， 并 且 提 出 了 一 种 高 效 
拥塞 敏感 算法 来 优化 电源 供电 噪声 ， 试 图 找到 布线 拥塞 恶化 和 漏电 流 功 耗 增加 的 平衡 。 

一 种 迭代 流程 被 用 来 解决 去 厅 电 容 定 位 问题 。 由 于 两 个 原因 ， 在 每 次 迭代 中 仅 
有 相对 少量 的 去 耦 电容 定位 到 当前 电路 。 第 一 ， 去 耦 电容 定位 问题 是 高 阶 非 线性 
的 ， 并 且 该 迭代 过 程 允许 受 控 于 解决 线性 程序 序列 的 优化 过 程 ， 每 次 迭代 一 回 。 为 
了 使 能 这 些 线性 程序 的 公式 ， 必 须 使 用 去 耦 电容 值 是 线性 的 模型 为 噪声 混 秋 和 拥塞 
建 模 。 第 二 个 原因 与 所 做 简化 有 关 ， 该 简化 避免 了 可 能 造成 拥塞 和 噪声 混 私 的 简化 
线性 模型 失效 过 多 去 耦 电容 的 分 布 ; 这 些 模型 在 微 扰 条 件 下 是 可 预测 的 。 

试验 结果 显示 ， 单 独 使 用 CMOS ARERR ERR; MM 去 耦 电容 的 
使 用 会 导致 高 阶 拥塞 。 将 两 种 去 耦 电容 的 最 优 混合 在 低 漏 电流 功 耗 的 基础 上 同时 满 
足 了 拥塞 和 噪声 约束 。 

3.3.4.2 用 于 3D IC 的 自动 MSPD 指定 

3.3.3.3 节 中 介绍 的 MSPD 可 以 在 解决 优化 问题 的 基础 上 自动 实现 ”*!， 其 将 
”两 层 问 题 视 为 两 层 间 模块 指定 问题 之 一 。MSPD 电路 设计 中 一 个 重要 的 考虑 是 局 部 
地 保持 工作 在 不 同 Wi 域 中 的 逻辑 块 的 电流 平衡 ， 因 为 反之 不 平衡 电流 将 流 过 稳 压 
售 并 浪费 挥 。 男 一 个 需要 考虑 的 重要 问题 是 在 哪个 设计 层次 电路 应 该 被 分 块 到 不 同 
的 电压 域 。 注 意 到 如 果 人 逻辑 块 用 于 驱动 男 一 个 工作 在 不 同 Vj, 域 中 的 逻辑 电路 ， 其 
答 出 端 需要 加 电 平 转换 右 。 电 平 转换 如 占用 芯片 面积 并 引发 电路 的 额外 延 时 。 

模块 指定 问题 在 布局 规划 层面 上 是 重点 ， 前 提 是 模块 数目 通常 不 太 大 ， 并 且 它 
们 的 面积 很 大 程度 上 被 忽略 了 。 假 定 K 个 稳 压 器 分 布 在 芯片 上 : 这 些 稳 压 器 设计 
出 色 并 输出 稳定 电压 Vao 
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每 个 稳 压 器 由 嵌入 Vj 网 格 的 点 代表 。 如 图 3- 16a 所 示 ， 芯 片 被 相应 地 分 为 天 
个 区 域 ， 因 此 每 个 区 域 中 有 一 个 稳 压 器 并 且 第 i 个 区 域 包含 片上 所 有 主要 从 第 i 个 
稳 压 器 得 到 或 输出 电流 的 点 。 将 芯片 分 割 成 这 些 不 重 钱 区 域 的 工作 可 通过 使 用 细 网 
格 来 网 格 化 芯片 区 域 实现 ， 其 中 每 个 模块 的 网 格 单元 属于 或 者 说 每 个 单元 可 称 为 属 
于 由 最 近 的 电压 稳 压 带 控 制 的 区 域 。 





分 接点 稳 压 器 
a) b) 


图 3-16 图 的 构建 : a) 把 芯片 分 块 得 到 每 个 均 由 一 个 稳 压 器 控制 的 互 不 相连 的 区 域 。 
b) 构建 图 ， 其 中 节点 V, 对 应 模块 ML" © IEEE 2007 

一 旦 芯片 划分 为 不 相连 的 区 域 ， 就 假定 任意 “ 非 平衡 ”电流 ， 即 未 循环 至 下 
一 层 特 定 区 域 的 电流 ， 通 过 了 同一 区 域 的 稳 压 需 并 浪费 把 了 。 如 果 模 块 位 于 多 个 区 
域 之 间 的 边界 ， 它 将 被 分 解 为 几 个 子 模块 ， 每 个 区 域 有 一 个 与 其 重 和 到 的 子 模 块 ， 并 
且 约 束 所 有 的 子 模块 必须 指定 到 相同 的 电压 域 。 

让 我 们 关注 对 应 特定 电压 稳 压 器 的 一 个 特定 区 域 。 假 定位 于 此 区 域 的 模块 为 M， 
M,…M, ， 其 中 流 过 模块 M, 的 电流 是 时 间 t RR, ha) 给 出 。 因 为 电压 稳 压 器 
仅 能 对 应 低 到 中 频 分 量 的 非 平衡 电流 ， 而 高 频 分 量 通常 由 片上 去 耦 电容 处 理 ， 于 是 我 
们 预 处 理 通 过 准确 到 周期 的 功 耗 模拟 得 到 的 电流 轨迹 ， 从 而 去 除 电流 信和 号 中 的 高 频 分 
^t. D, LO) 应 被 理解 为 流 经 模块 M, 的 仅 包 含 低 频 到 中 频 分 量 的 电流 。 

如 果 将 0/1 整 型 变量 x 与 模块 M, 联合 定义 为 

O MFE 2V,fll Vi 之 间 操 作 
DET l M, 在 Vi 和 Cw 之 间 操 作 
那么 寺 时 刻 流 经 电压 稳 压 器 的 总 电流 约 为 


IO = [Xn0-0-x)- XO l= | LLC) (1-2x)| (3-23) 


该 问题 可 视 为 映射 为 一 种 最 大 化 各 分 块 间 切割 区 域 面积 的 图 分 块 ， 其 中 边 的 权 
重 由 下 式 给 出 : 


(3-22) 


WVV) = [ Y, ee] COL CO (3-24) 


式 中 ，S; 代表 第 i 个 模块 的 面积 ; 第 i MRR GSB k SER A AY GIL SER. 
AX (3-24) 直观 上 意义 在 于 对 于 任意 模块 对 ， 仅 在 芯片 上 位 于 相同 区 域 的 部 
分 按 它 们 之 间 的 相关 系数 计算 。 如 果 模 块 M; 和 Mi 彻底 分 成 了 两 个 不 相连 的 区 域 ， 
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BUR w(V,, V) 将 为 零 ， 并 因此 可 去 除 图 中 对 应 边 。 其 结构 示例 见 图 3- 16b。 一 种 
Fidducia- Mattheyses- 式 方法 ”用 来 快速 找到 最 大 化 切割 数 的 分 块 方式 。 

本 章 参 考 文献 [47] 中 的 试验 结果 显示 所 述 方法 在 构建 基于 SOL L2, B9 2D 和 
3D 芯片 的 多 层 电源 网 格 分 块 均 有 效 ， 其 中 来 自 多 层 的 块 可 以 在 一 个 芯片 层 共存 。 
结果 显示 基于 分 块 的 方法 在 通过 系统 回收 大 量 能 量 时 是 成 功 的 ， 同 时 基于 分 块 的 结 
果 的 质量 优 于 退火 方法 。 


3.4 结论 


本 章 中 ， 我 们 广泛 地 分 析 了 未 来 3D 世 片 中 的 热 和 电源 的 传输 问题 。 两 个 问题 
有 一 个 共同 来 源 ， 因 为 它们 都 是 3D 集成 电路 中 单位 面积 增长 的 电流 引起 的 ， 并 由 
此 引发 了 严重 的 可 靠 性 问题 和 潜在 的 逻辑 错误 。 热 问题 将 在 本 书 中 进行 更 深入 的 分 
析 ， 但 我 们 已 经 通过 设计 和 CAD 方法 提供 了 克服 电源 传输 问题 的 整体 解决 方案 。 
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第 4 章 热 敏 感 3D 布局 规划 


Jason Cong Yuchun Ma 
三 维 集成 使 布局 规划 更 加 困难 ， 原 因 在 于 多 器 件 层 显著 地 扩大 了 解 空 间 ， 并且 
功率 密度 的 增加 加 剧 了 热 问 题 。 本 章 介 绍 了 带 有 2D 块 和 3D 块 的 3D 布局 规划 的 算 
法 。 作 为 简要 介绍 的 基于 多 种 表达 式 的 随机 优化 的 补充 ， 本 革 介 绍 了 分 析 式 的 方 
法 。 多 种 关于 线 网 长 度 、 面 积 和 温度 的 3D 布局 规划 技术 影响 的 说 明 通 过 实验 结果 
给 出 。 


3D 芯片 设计 提供 了 逻辑 块 拓 扑 排 布 的 另 一 个 维度 。 因 此 ， 在 采用 3D 技术 时 
物理 设计 工具 占据 重要 的 地 位 。 作 为 物理 设计 流程 中 的 关键 步 又， 布局 规划 严重 影 
响 着 最 终 设计 的 性 能 。 因 为 多 个 必 片 层 显 著 扩 大 了 解 空 间 ， 同 时 功率 密度 的 增加 导 
致 了 热 问 题 ， 所 以 三 维 集成 使 布局 规划 问题 变 得 更 加 困难 。 因 此 ， 进 入 3D 设计 阶 
段 极 大 地 增加 了 布局 规划 问题 的 复杂 度 。 

1) 3D 集成 电路 布局 规划 的 设计 空间 随 有 效 层 数 的 增加 按 指数 级 增加 。 

2) 附加 的 温度 约束 或 温度 最 小 化 目标 使 优化 过 程 复 杂 化 。 需 要 在 面积 、 线 网 
长 度 和 热 特 征 参 数 间 折 中 来 完成 优化 。 同 时 由 于 3D 芯片 中 的 高 温 ， 解 决 封闭 的 温 
度 / 漏 电 功 耗 反馈 环 以 准确 估计 或 优化 两 者 是 必要 的 。 

3) Zb HERAKLA TF Spi RI BA. xe up HIT EAS SR 
中 ， 以 减 小 块 内 线 网 迟 沛 时 间 。 多 层 块 的 使 用 需要 新 的 基本 物理 设计 方法 以 应 对 三 
维 设计 空间 。 

因此 ， 开 发 考虑 3D 设计 约束 的 热 敏 感 布局 规划 工具 势 在 必 行 。3D 布局 规划 
的 目标 是 在 不 违反 某 些 设计 约束 的 情况 下 优化 某 些 目标 参数 ， 从 而 在 多 芯片 层 不 重 
苹 地 打包 块 。 根 据 块 的 表示 方式 ， 我 们 可 将 3D 布局 规划 问题 分 为 两 类 。 第 一 类 是 
2D 块 的 3D 布局 规划 ， 其 中 每 个 块 是 2D 的 长 方形 并 且 每 层 的 打包 可 视 为 2D 布局 
规划 。2D 块 的 3D 布局 规划 可 表示 为 2D 表示 的 和 矩阵 (2D 矩阵) ， 其 中 每 个 代表 所 
有 位 于 一 个 紫 件 层 的 块 。 第 二 类 的 3D 布局 规划 包含 3D 块 ， 其 中 每 个 块 视 为 在 Z 
轴 上 具有 非 零 高 度 的 立方 块 。 在 该 情况 下 ， 现 有 的 2D 表示 不 再 适用 ， 我 们 需要 新 
的 表示 方法 。 

本 章 讨论 了 这 两 种 方法 及 其 在 3D 集成 电路 中 的 应 用 。4. 2 节 阐 述 了 3D 布局 规 
划 问 题 ; 4.3 节 和 4.4 节 分 别 介绍 了 用 于 含 2D 和 3D 块 的 3D 布局 规划 的 优化 的 表 
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示 方 法 。 在 4.5 节 中 ,介绍 了 3D 布局 规划 的 优化 技术 。 在 通常 使 用 的 模拟 退火 优 
化 方法 以 外 ， 还 介绍 了 解析 方法 ， 例 如 力 导 向 法 。4. 6 节 提 供 了 多 种 技术 的 实验 结 
果 。 最 后 ， 我 们 在 4.7 节 给 出 了 结论 。 


4.2 问题 说 明 


与 传统 2D 布局 规划 相似 ，3D 布局 规划 的 目标 也 是 打包 面积 小 、 线 网 长 度 短 、 
功 耗 低 和 性 能 高 。 如 第 3 章 中 说 明 的 ， 虽 然 3D 集成 有 很 多 潜在 的 优势 ， 但 热 分 布 
成 为 贯穿 3D 设计 每 个 阶段 的 关键 问题 。 因 此 ，3D 布局 规划 将 块 互 不 重 雪 地 分 布 
在 一 定数 目的 芯片 层 上 从 而 使 如 芯片 面积 、 线 网 长 度 、 层 间 过 孔 数 据 和 最 大 片上 温 
度 的 设计 指标 优化 或 达到 某 些 设计 约束 。 

BERT z 轴 的 加 入 ,不 仅 2D 块 可 在 多 心 片 层 间 扩 展 ， 而 且 某 些 独立 需 件 可 设计 
折 炙 为 多 层 块 形式 以 减 小 块 内 线 网 迟滞 和 功 耗 。 近 期 的 研究 提出 了 多 种 3D 构架 结 
构 ， 包 括 3D REO?) ，3D 寄存 器 堆 ” 、3D 运算 单元 “和 3D 指令 调度 器 ” 。 
具有 不 同 层 数 的 3D 部 件 可 视 为 需 打 包 到 3D 空间 中 的 立方 块 。z 方向 的 尺寸 代表 层 
信息 。 因 此 , 在 3D 布局 规划 中 ， 需 要 打包 的 块 可 为 2D 块 或 3D 块 。 图 4-1a 示 出 
了 Alpha 21264 的 两 层 打 包 ， 其 中 所 有 的 块 为 2D H, mA 4-1b 示 出 了 一 些 3D 块 
的 打包 。 每 个 3D 部 件 的 实现 因 不 同 的 面积 一 延 时 一 功 耗 的 折 中 有 多 种 可 能 的 选 
择 。 如 图 4-1b 所 示 ， 最 优 的 布局 规划 可 能 是 占据 单个 需 件 层 的 结构 单元 的 子 集 ， 
而 其 他 的 可 实现 在 多 层 上 ， 洪 在 地 具有 zx 方向 上 的 不 同 高 度 。 根 据 块 的 表示 法 ， 可 
将 3D 布局 规划 问题 分 为 两 类 ， 即 仅 含 2D 块 的 3D 布局 规划 和 可 能 含 3D 块 的 3D 
布局 规划 。 





a) 用 2D 块 打包 


4-1 三 维 布 局 规划 


4.2.1 含 二 维 块 的 三 维 布局 规划 


虽然 舍 2D 块 的 3D 打包 可 视 为 多 层 堆 全 的 2D 打包 ,但 在 芯片 层级 上 存在 附加 
问题 ， 即 当 大 量 的 有 源 咒 件 打包 到 相当 小 的 区 域 中 时 ， 会 导致 功率 密度 远 高 于 其 对 
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应 的 2D 电路 。 结 果 是 除了 一 般 的 面积 、 线 网 长 度 的 打包 指标 之 外 ， 热 问题 成 为 设 
计 指标 中 的 首要 问题 。 此 处 ， 我 们 可 以 将 含 2D 块 的 3D 布局 规划 进行 一 下 说 明 。 
有 一 个 含 2D 块 的 3D 布局 规划 问题 的 实例 ， 该 实例 块 由 一 系列 块 |m, 


m, =, m,} 组 成 。 块 m; 是 W, xH, 面积 为 A; 的 长 方形 ， 高 宽 比 为 H/W,, Jp 
ZEH PD,. EAHA A hE. RRA EAL. QELE (x. y 
L) 代表 块 m, IRURE DUI. AR, HEF p mL. 3D Fi ey UU] F BI SEE 


th m, 指定 坐标 (x, y’ L) IPH RAMEA. 3D 布局 规划 算法 通常 的 目标 是 最 
小 化 下 列 各 项 : 芯片 峰值 温度 Ta @ 总 线 网 长 度 (或 总 功 耗 ) ; 图 芯片 面积 。 
芯片 面积 是 所 有 层 最 大 高 度 和 宽度 的 乘积 。 线 网 长 度 是 半 周 长 线 网 长 度 估计 。 此 
外 ， 有 些 另外 的 设计 目标 ， 例 如 噪声 、 性 能 和 芯片 层 间 过 和 孔 的 数目 等 需要 被 同时 考 
虑 。 同 时 ， 一 些 设 计 约 束 需 要 包括 在 内 ， 例 如 预 打 包 块 〈( 受 约束 的 块 的 位 置 是 预 
定义 的 ) ， 对 齐 约束 〈 某 些 特定 块 约束 为 沿 x、y 或 z 方 向 对 齐 ) 。 

因为 含 2D 块 的 3D 布局 规划 可 表示 为 由 2D 表示 的 和 矩阵， 所 以 2D 布局 规划 算 
法 可 以 通过 在 优化 技术 中 引入 新 的 操作 扩展 到 多 层 设 计 。 虽 然 2D 设计 的 布局 规划 
是 一 个 充分 研究 过 的 问题 ， 但 加 入 芯片 层 的 信息 后 ,3D IC 布局 规划 的 设计 空间 以 
指数 级 增加 。Li 等 人 说 明了 给 定 一 个 含 n 个 块 的 布局 规划 问题 ,，L 层 3 D 布局 规划 
的 解 空间 相对 于 2D 的 情况 增加 了 nA/(L-1)! 倍 … 。 虽 然 多 层 设计 可 以 表示 为 
2D 打包 的 和 矩阵， 但 是 特定 优化 技术 仍 需 要 充分 研究 。 热 敏感 优化 在 3D 设计 中 极 
为 关键 。 


4.2.2 含 三 维 块 的 三 维 布 局 规划 


细 颗 粒 三 维 集成 提供 了 更 小 的 块 内 线 网 延 时 并 同时 优化 了 功 耗 CEL 
在 附录 中 提供 ) 。 每 个 组 件 的 实现 因 多 种 不 同 的 配置 而 有 多 种 选择 。 因 此 ， 组 件 可 
通过 不 同 的 堆 蚕 技术 实现 在 多 层 之 上 ， 如 四 层 或 两 层 缓存 。 但 局 部 看 来 最 优 的 独立 
单元 实现 不 一 定 是 对 于 整个 多 层 心 片 最 优 的 设计 。 为 得 到 多 个 指标 的 折 中 ， 在 打包 
设计 中 实现 具有 不 同 z 轴 回 高 度 的 立方 块 是 可 能 的 。 因 此 ， 应 开发 立方 打包 的 算 
法 。 此 算法 可 以 在 最 小 体积 内 互 不 交大 的 排 布 那些 给 定 的 以 立方 体形 式 存在 的 电路 
组 件 。 在 每 个 关键 部 件 具有 多 种 实现 方式 的 情况 下 ， 块 的 实现 是 部 分 定义 的 。 没 有 
物理 信息 避 ® 不 可 能 得 到 用 于 最 终 心 片 的 最 优 组 件 实现 。 于 是 ， 含 3D 块 的 3D 布局 
规划 不 能 仅 要 确定 块 的 坐标 ， 还 要 能 选择 组 件 的 配置 ， 如 层 数目 和 分 块 方式 。 因 
此 ， 我 们 可 以 将 含 3D 块 的 3D 打包 描述 如 下 : 

给 定 3D RIR: 假设 对 于 块 ;， 有 上 个 不 同 的 实现 方式 ， 记 录 在 备 选 表 中 
(cis a, rlo PTRA cH (wi), B (h), EU (z), ， 延 时 (di), WH 
(mm)〈 假 定 每 层 具有 相同 的 功 耗 ) 。 目 标 是 生成 一 个 优化 了 芯片 面积 、 最 大 片上 温 
度 等 指标 的 布局 规划 。 同 时 ， 层 的 数量 通常 固定 ， 意 味 着 给 定 的 层 数 约束 为 Z.。， 
且 块 不 能 超过 该 层 数 约束 。 在 本 章 中 ， 我 们 将 提供 可 以 表示 4. 4 节 中 立方 打包 的 几 
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种 典型 的 表示 方式 。 
4.3 含 二 维 块 的 三 维 布局 规划 表示 法 


因为 含 2D 块 的 3D 布局 规划 可 表示 为 2D 表示 的 和 矩阵， 所 以 2D 布局 规划 算法 
可 通过 在 优化 技术 中 引入 新 操作 以 扩展 到 可 处 理 多 层 设计 。 在 讨论 详细 的 3D 操作 
前 ， 先 简要 地 介绍 基本 的 2D 表示 法 。 这 是 3D 布局 规划 优化 的 基础 。 


4.3.1 二 维 表示 法 的 基本 表示 


块 间 的 几何 关系 通常 通过 布局 规划 区 域 的 矩形 分 割 定 义 。 为 了 约束 解 空间 尺 
sb. 3 种 不 同 的 分 割 方法 被 提出 。 其 对 应 的 布局 规划 结构 称 为 切片 ” . Bi 
ik 07 和 总 体 布局 ”” 。 切 片 布局 规划 是 灸 读 布 局 规划 的 特例 ， 镰 谋 布 局 规划 是 
总 体 布 局 规划 的 特例 。 切 片 、 馈 和 散 和 总 体 布局 规划 的 解 空间 关系 如 图 4-2 所 示 。 





图 4-2 切片 、 锐 钥 和 总 体 布局 规划 的 解 空间 的 关系 


切片 布局 规划 可 通过 使 用 水 平 线 或 垂直 线 递 归 切 割 矩形 得 到 ， 每 次 切割 将 矩形 
分 为 两 部 分 。 在 镶 髋 布局 规划 中 ， 布 局 规划 区 域 分 割 为 精确 的 空间 ， 使 得 每 个 空间 
均 由 一 个 且 仅 一 个 块 占据 。 总 体 布 局 规划 类 似 镶 艇 布局 规划 ， 因 其 允许 非 切 片 结 
构 。 然 而 ， 布 局 规划 区 域 可 分 割 为 多 个 空间 ， 其 数目 大 于 块 数 ， 这 样 有 一 些 空间 不 
饿 任何 块 占 据 。 除 这 三 类 以 外 ， 还 有 一 种 紧凑 打包 。 当 其 他 块 固定 时 如 果 没 有 块 可 
左 移 ( 下 移 ) ， 确 立 的 打包 称 为 L- compat (B- compat) 。 如 图 4-2 所 示 ，3 个 块 a, 
b Ale 的 打包 为 切片 和 灸 藤 ， 但 不 是 紧凑 打包 。 因 此 ， 紧 凑 打 包 是 一 种 特殊 的 打包 
类 型 ， 其 解 空间 与 切片 和 灸 诅 的 解 空 间 交 大 ， 但 不 完全 包含 它们 。 

由 于 2D 和 3D 矩形 打包 问题 是 NP 困难 问题 ， 大 多 数 布局 规划 算法 基于 如 模拟 
退火 的 随机 组 合 优化 技术 。 在 优化 过 程 中 ， 通 常 使 用 拓扑 表示 ， 因 为 它们 保证 了 所 
有 编码 的 打包 不 重合， 且 每 个 拓扑 表示 一 种 易于 移动 的 方式 包含 了 块 间 的 相对 位 置 
HE (如 之 右 , 之 左 ， 之 上 ,之 下 )。 切 片 结构 可 译 为 切片 树 RE RAER", 
在 序列 对 ”作为 第 一 个 总 体 布局 规划 的 表示 法 提出 后 ,多 种 (如 BSG", 
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OPS, BE, CBL I TCG ^) 布局 规划 表示 法 被 提出 。 这 些 表 示 法 为 解 
的 探索 提供 了 不 同 程度 的 元 余 和 效率 。 以 下 ,我们 简要 的 介绍 几 种 典型 的 表示 法 。 
4.3.1.1 切片 结构 
因为 切片 结构 能 通过 垂直 或 水 平 线 递归 分 块 ， 所 以 称 为 切片 树 ” 的 定向 
根 二 又 树 用 于 表示 块 间 的 分 块 过 程 〈 见 图 4-3)。 树 的 每 个 内 部 节点 用 “* ”或 
“ +” 操作 数 表示 ， 分 别 对 应 垂直 和 水 平 切割 。 每 个 叶子 对 应 一 个 基本 块 并 用 从 1 
到 nn 的 数 表示 (n 是 块 的 数目 ) 。 


非 偏 移 切 片 树 : 12#34++ 偏 移 切 片 树 : 12*3+4+ 
图 4-3 切片 布局 规划 的 切片 树 状 表示 和 波兰 (polish) 表达 式 表示 


然而 ， 对 于 给 定 的 切片 布局 规划 ， 存 在 超过 一 个 的 切片 树 表示 。 为 了 得 到 所 有 
切片 布局 规划 的 非 宛 余 表 示 ，Wong 和 Liu559 提 出 了 一 种 特别 的 切片 树 ， 称 为 偏 移 
切片 树 (SST), SST 是 没有 节点 并 且 其 右 侧 子 节点 具有 相同 的 标号 ( 见 图 4-3)。 
SST 的 逆向 遍历 ， 称 为 归 一 化 波兰 表达 式 (NPE), ， 它 们 使 用 它 作 为 布局 规划 表示 
法 。 如 果 波 兰 表 达 式 序列 中 没有 连续 的 “* ”或 “+” 则 称 其 为 归 一 化 。 本 音 参 
考 文献 [34] 中 证 明 长 度 为 22 -1 的 归 一 化 波兰 表达 式 集 和 个 块 的 切片 布局 规 
划 有 一 一 对 应 关系 。 打 包 可 通过 在 线性 时 间 内 扫描 切片 树 或 归 一 化 波兰 表达 式 
实现 。 

4.3.1.2 ear 

本 章 参考 文献 [7] 中 介绍 了 镶嵌 布局 规划 ， 其 有 以 下 特征 ; 

1) 布局 规划 中 不 存在 空闲 空间 ， 即 每 个 矩形 指定 -一 一 一 
到 一 个 且 仅 一 个 块 。 如 图 4-4 所 示 ， 某 些 具 有 空闲 空间 | 
的 结构 无 法 用 镶嵌 布局 规划 表示 。 

2) 在 非 交 叉 片 段 滑动 以 适应 块 尺寸 的 之 前 和 之 
后 ， 其 拓扑 结构 是 等 价 的 。 

3) 不 存在 两 个 片段 在 同一 点 相遇 的 退化 情况 。 如 Eee 
果 退 化 情况 发 生 ， 片 段 会 被 分 开 并 向 两 侧 滑 开 一 小 段 图 4-4 带 有 空闲 空间 的 打包 
距离 (退化 情况 的 进一步 讨论 见 4.3. 2.2 节 )。 

角 块 列表 …” ， 双 位 序列 中 Q 序列 1 等 提出 来 代表 镶嵌 布局 规划 。 在 以 
下 的 讨论 中 ， 我 们 将 简要 介绍 角 块 列表 。 

角 块 列表 (CBL) 使 用 (S, L, T) 的 三 元 列表 ， 其 中 $ 记录 块 ID 的 序列 。L 
记录 每 个 块 的 方向 : L; 20 代表 块 i 从 上 方 覆 盖 了 其 他 块 ; L, =1 esed i JU RE 
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善 了 其 他 的 块 (如 图 4-5 所 示 )。 位 表 7 记录 了 有 多 少 个 块 在 其 打包 时 被 一 个 块 所 
覆盖 。 在 表 7 中， 每 个 子 表 的 长 度 ， 其 中 子 表 具 有 一 定数 目 连续 的 “1” 并 以 “0” 

结尾 ， 对 应 被 块 i 覆盖 的 块 数目 。 图 4-6 是 一 个 非 切 片 布局 规划 及 其 对 应 的 CBL 的 
例子 。 在 图 4-6 th, Hee BRT RITE |f els Bit, FX 110} 用 来 在 表 7 中 
表示 块 g。 





a) d 角 块 为 垂直 方向 的 b) a 角 块 为 水 平方 向 的 
图 4-5 角 块 的 定 回 


角 块 表 : 
S=(abcdefg) 

L = (001010) 
T=(00100 110 10) 





Al4-6 非 切 片 布局 规划 及 其 对 应 的 CBL 表 


要 注意 在 一 个 CBL KP, FKT, 中 连续 “1” 的 个 数 可 能 大 于 在 对 应 方向 上 
存在 的 未 覆盖 块 。 为 修正 该 问题 ， 结 束 位 “0” Medo 说 明 该 块 将 覆 
— 假定 存在 块 的 数目 为 :+。 当 扫描 块 i 的 表 ny 4r 
A t 个 连续 的 “1”， 那 么 “0” 可 以 立刻 自动 /有 效 插 和 人 在 那些 连续 的 “1” 之 后 来 

结束 该 子 表 7.。 dud T 的 扫描 可 以 继续 进行 下 一 个 块 。 因 此 ， 对 应 Bie 
规划 的 任意 CBL 是 可 行 的 。 

4.3.1.3 总 体 布 局 规划 结构 

由 于 允许 非 切 片 结 构 ， 总 体 布局 规划 与 镶嵌 布局 规划 类 似 。 然 而 ， 打 包 区 域 可 
分 割 为 多 于 nn 个 空间 并 且 使 一 些 空间 不 被 任何 块 占据 。 在 20 世纪 90 年 代 中 期 ， 序 
列 对 (SP) 和 边缘 切割 线 网 格 (BSG) 出现 之 前 没有 对 于 总 体 布局 规划 的 有 效 
的 拓扑 表示 法 。 序 列 对 是 对 于 总 体 布局 规划 的 出 色 的 表示 法 并 被 广泛 使 用 。 之 后 ， 
TCG/TCG- S ”也 被 提出 来 表示 总 体 结构 。 在 本 小 节 中 ， 我 们 将 简要 的 介绍 序列 
对 和 TCG。 

序列 对 : 序列 对 是 一 对 代表 个 块 表 的 个 元 素 的 序列 。 两 种 置换 (T+, T-) 
捕捉 了 每 两 块 间 的 几何 关系 。 基 本 上 ， 序 列 对 用 以 下 的 方式 规定 了 每 对 块 间 的 关系 : 

( « eee asses byes >< ees ayes b, > )—a 在 b 左 侧 
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( «-,.,a,,b,: >. « ,b,::,a,-- > )—a TE b EF 

每 两 个 块 在 垂直 和 水 平方 向 互相 约束 ， 并 且 仅 记录 这 些 约 束 。 因 此 块 的 位 置 尽 
可 能 推 到 了 左下 ， 同 时 满足 了 在 序列 对 中 编码 的 拓扑 关系 。 图 4-7 是 一 个 序列 对 的 
例子 。 

最 初 的 0(n ) 次 求 值 算法 , 来自 本 章 参 考 文献 
[18] ， 在 本 章 参 考 文献 [32] 中 得 到 了 有 效 的 改进 。 
本 章 参 考 文献 [32] 中 的 算法 在 O(n log(n)) 的 时 间 内 
运行 ， 用 基于 在 一 对 加 权 的 序列 中 计算 最 长 公共 子 序列 
的 方法 对 序列 对 求 值 。 之 后 的 工作 本 章 参 考 文献 [33] 
改进 了 本 章 参 考 文献 [32] 中 的 算法 并 在 不 影响 结果 块 
位 置 的 情况 下 将 运行 时 间 减 小 到 O(n log(log(n)))。 图 4-7 一 个 打包 的 序列 对 : 

TCG; TCG 描述 了 基于 两 个 图 的 块 间 的 几何 关系 。(cbgedaf,abcdefg) 
这 两 个 图 称 为 水 平 转移 闭合 图 C, 和 垂直 转移 闭合 图 C,， 

其 中 节点 n 代表 块 b, C,(C,) 中 的 边 (m, n) 表示 块 b, ERS HAM 
( PJfJa 

图 4-8 minh £5 "X a, b, c, d, e 的 布局 及 其 对 应 的 TCG 图 。 TEC,(C,) 中 
节点 边 的 值 是 对 应 块 的 宽度 AN C,(C,) 中 的 边 (ni, nj) 表示 b, fI b; 的 水 
: (垂直 ) 关系 。 其 中 ,，S 和 了 是 代表 源 节 点 和 目标 节点 的 空闲 节点 。 为 清晰 起 

， 我 们 省 略图 4-8 中 连接 空闲 结 点 的 转移 边 。 由 于 OC, 中 存在 边 (nb, nd), ， 故 块 
同 理 ， 由 于 C, 中 存在 边 (na，nb) ，a 在 b 下 方 。 因 此， 通过 穿越 约 


束 图 找到 最 长 的 路 径 ， 每 个 块 的 位 置 就 确定 了 。 
T 
i ne 
T 
nd 
S 
ES 








r nb » 
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图 4-8 ”一 个 打包 及 其 对 应 的 TCC 


4.3.1.4 XS 

总 体 布局 规划 表示 法 的 巨大 的 解 空 x 间 限制 了 其 在 大 规模 布局 规划 问题 中 的 应 
Ho OB tm BRE ”给 出 了 一 种 总 体 布局 规划 的 紧凑 版 本 。 与 SP 和 TCG 相 比 ， 
这 两 种 表示 法 的 解 空间 更 小 。 然 而 ， 它 们 仅 代 表 部 分 拓扑 信息 ， 并 且 需 要 所 有 块 的 
尺寸 以 描述 精确 的 布局 规划 。 此 外 ， 不 是 所 有 可 能 的 矩形 分 割 都 可 以 表示 为 0 树 
ALB" 树 。 例 如 ， 由 于 块 A 没有 推 到 如 图 4-9b 所 示 的 最 左 侧 ， 图 4-9a 的 打包 是 不 


第 4 章 热 敏 感 3D 布局 规划 S7 





紧凑 的 。 但 如 果 块 A 和 B 之 间 有 许多 连接 ，a 中 的 打包 线 网 长 度 将 优 于 b。 因 此 ， 
某 些 用 序列 对 或 CBL 表示 的 打包 不 能 用 O WA BRRR, HF 0 树 和 B” 树 的 第 
构 有 些 相 似 ， 我 们 以 下 简要 介绍 B' 树 。 


CBL: S=(ABC) CBL: S=(ABC) 
L-(10) C L=(10) 


T=(0 0) T=(0 10) 
pal By SP: (acb, abc) SP: (cab, abc) 
a) TER BET) S b) 紧凑 打包 
图 4-9 打包 示例 


B* ft: 0 树 和 B* 树 代表 一 种 二 义 树 的 紧 竣 表示 法 。 其 中 每 个 节操 对 应 一 个 块 
( 见 图 4-10) 。 根 节点 代表 左下 的 块 。 例 如 图 4- 10 中 的 B3 eA PR. ATTRAE 
其 父 节点 的 右 侧 最 下 方 的 邻 块 ， 右 子 广 点 是 其 父 市 扣 之 上 的 最 下 方 广 点 并 与 其 父 市 
点 * 轴 坐标 相同 。 在 图 4-10 中 ，B5 和 B2 分 别 是 B3 的 左右 子 市 点 。 给 定 一 个 B* 
树 ， 块 位 置 可 通过 树 的 深度 优先 遍历 得 到 。 在 块 A 放置 到 (x4; ya) 后 ， 我 们 考 
APR BIFS x, =x, +w, HP w, 是 A 的 宽度 ; ys 是 避免 与 之 前 放置 的 块 重 
BENERE. EMAI B 的 递归 返回 后 ， 我 们 考虑 A 的 右 子 节点 C: xc xs, W 
时 yc 为 避免 重合 的 最 小 值 。 该 算法 能 用 轮廓 数据 结构 以 O(n) 的 时 间 实 现 。 打 包 
的 轮廓 定义 了 其 上 边沿 (参差 不 齐 ) 并 能 实现 成 线段 的 双 链 表 〈 见 图 4-10) 。 当 新 
块 以 某 个 x 坐标 置 于 轮廓 顶端 ， 其 消耗 分 期 0(1) 的 时 间 确 定 它 的 y 坐标 。 所 有 
B 树 代表 的 打包 必须 是 紧 竣 的 ， 这 样 不 会 有 单独 块 在 不 产生 重生 的 情况 下 下 移 。 
因此 ，B 树 可 能 无 法 代表 最 小 线 网 长 度 打包 。 如 图 4-9 所 示 ， 如 果 C 块 与 块 B 间 
有 紧密 连接 ， 那 么 a 中 的 打包 比 b 中 的 打包 的 线 网 长 度 更 短 ， 但 a 不 是 紧凑 打包 所 
以 它 不 能 用 B" 树 代表 。 


B6 B4 BI 





图 4-10 一 个 打包 及 其 B' 树 表示 : 该 打包 的 轮廓 用 粗 线 表示 


4.3.2 不 同 表示 法 的 分 析 


在 之 前 的 章节 中 我 们 介绍 了 几 种 典型 的 2D 布局 规划 表示 方法 。 通 过 保存 每 芯 
片 层 的 表示 符 阵 并 允许 不 同 层 间 的 块 交 换 ， 它 们 每 个 都 可 以 扩展 以 解决 含 2D BRAY 
3D 布局 规划 问题 。 但 这 些 表示 方法 的 解 空间 大 相 径 庭 。 有 些 打 包 无 法 在 某 些 表示 
法 中 表示 。 有 些 表示 法 实际 上 捕 提 了 与 布局 规划 完全 一 致 的 集合 。 因 此 ， 我 们 从 几 
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个 角度 分 析 表 示 法 。 

4.3.2.1 复杂 度 

基于 表示 法 ,我们 需要 扫描 步骤 来 构建 块 的 打包 ， 我 们 称 该 步骤 为 布局 规划 构 
建 。 布 局 规划 表示 法 一 直 用 布局 规划 构建 的 算法 复杂 度 和 编码 配置 的 总 数 衡量 。 本 
ftd [38, 29] 中 讨论 了 多 种 布局 规划 表示 法 的 算术 特征 并 在 这 里 简要 总 
结 。 PERA RAURI ASETA R H Mi Baxter a 给 出 ， 其 可 表示 为 


n +1 n +1 n+1\/n+1\jn+1 
Bind "1 ) | 2 ) EG k Miva) 
切片 布局 规划 的 准确 数目 在 块 数 大 于 1 时 是 超级 卡 塔 兰 数 (Super Catalan 
Number) 的 两 倍 。 超 级 卡 塔 兰 数 可 表示 为 
A, =l; A, sl; 
A, =(2(2n-3)A,_, - (n -3)A, ,)/7n 
E 4-11 示 出 了 不 同 结构 组 合 的 准确 数 。 我 们 可 以 看 到 SP/TCG 的 组 合 数 随 块 
的 数目 增加 十 分 迅速 ; 代表 紧凑 结构 的 0 树 B 树 拥有 最 少 的 组 合 数 。 


BJ 00 T T TT UEUUECODERUTOSI UE TT 






: |] [= 0-trec/B*-tree -e- Slicing ~ Mosaic =SP/TCd 





29644790 
7670 


pu E Qu c qub d du c a up auc Pn LUE D C uL QUE ii x dede ee P D 4 
l 2 3 4 35 6 T mw 11 32 BG D 18 160 17 


图 4-11 不 同 结构 的 准确 组 合 数 目 (注意 Y 轴 的 组 合 数目 采用 的 是 指数 坐标 ) 


表 4-1 示 出 表示 法 之 间 在 解 空间 、 打 包 时 间 、 打 包 类 别 上 的 比较 。 

有 些 表示 法 虽然 不 同 ， 但 在 解 空 间 上 是 等 价 的 。 解 空间 定义 了 表示 法 基本 的 表 
达 范 围 ， 该 范围 可 能 直接 影响 解 的 质量 。 如 果 表 示 法 共享 相同 的 解 空间 ， 令 移动 集 
合 相 同 ， 那 么 它们 的 差异 就 仅 在 于 运行 时 间 ( 某 些 移动 会 稍 快 或 稍 慢 ) 。 本 章 参考 
文献 [14] 表示 因为 共享 相同 的 (n!) 解 空 间 并 捕捉 相同 的 布局 规划 集合 ， 序 列 
对 和 TCG 是 等 价 的 。 每 个 序列 对 对 应 一 个 TCG， 反 之 亦 然 。 尽 管 TCC 和 SP Str, 
它们 的 特征 和 相关 操作 差异 很 大 。SP 和 TCG 都 是 很 灵活 的 表示 法 并 通过 构建 约束 
图 衡量 其 打包 代价 。 然 而 ， 像 大 多 数 现存 的 表示 法 ， 块 间 的 几何 关系 对 SP 的 操作 
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并 不 透明 ( 即 一 个 操作 对 模块 关系 的 影响 在 打包 前 不 清楚 ) ; 于 是 我 们 需要 用 每 次 
移动 后 的 草图 构建 约束 图 来 衡量 打包 损失 。 该 缺陷 使 SP 更 加 难以 覆盖 所 需 的 解 衬 
间 和 处 理 带 约束 的 布局 问题 (例如 边缘 模块 ， 预 布局 模块 )。 与 SP 相反 ， 块 间 的 
几何 关系 对 TCG 及 其 操作 是 透明 的 ， 使 之 易于 覆盖 所 需 的 解 空间 。 此 外 ，TCG 在 
操作 中 支持 增 量 更 新 并 同时 保存 边缘 模块 和 表示 法 中 模块 的 形状 和 相对 位 置 的 
2: g 


HI UO 


A 4-1 不 同 表 示 法 对 比 


表 示 法 布局 构建 的 复杂 度 打包 种 类 


BH O(n! 2n) 00) — 
CBL Oln! 2*7? 74.5) O(1) Bii FY 


O WA B 树 使 用 单个 树 来 表示 水 平 紧凑 打包 ， 但 与 树 的 按 位 级 实现 不 同 。0 
树 使 用 具有 任意 项 点 度数 的 根 序 树 ， 而 B^ 树 使 用 二 义 树 。 因 此 ， 它 们 共享 大 小 为 
O(n! 27/n^^) 的 相同 解 空间 并 捕捉 相同 的 布局 规划 集合 。 与 其 他 表示 法 相 比 ， 
B A O 树 的 解 空 间 相 对 较 小 。 然而 ， 它 们 仅 代表 部 分 拓扑 信息 而 且 需 要 所 有 块 
的 尺寸 以 描述 准确 的 布局 规划 。 

4.3.2.2 AF 

见 余 意味 着 代表 某 个 布局 规划 的 表示 超过 一 个 。 表 示 的 宛 余 会 在 多 种 找寻 步骤 
中 浪费 步 绝 。 实 际 上 ， 如 果 我 们 考虑 退化 的 情况 〈 见 图 4-12 ) ， 大 多 数 表 示 法 对 于 
该 打包 将 有 最 少 两 种 表示 。 以 NPE A, 虽然 有 两 种 分 块 选择 ,但 不 论 先 采用 哪 
种 分 块 所 得 到 的 切片 树 仍 是 偏 移 的 。 而 本 章 参 考 文献 [7，38，40，39] 中 的 大 多 
数 的 工作 将 见 余 情况 视 作 特殊 情况 并 假定 交叉 块 被 小 段 距离 隔 开 使 得 块 间 拓扑 关系 
能 锌 固定。 因此， 我 们 不 认为 退化 情况 的 多 重 表示 是 匈 余 表示 。 但 即使 不 考虑 退化 
情况 ， 在 某 些 表 示 中 仍 存在 宛 余 一 一 有 些 可 以 修正 的 ， 有 些 则 不 可 避免 。 


{is E 
"e Puede LS 


NPE: 12*34*+ NPE: 12+34+* 


图 4-12 对 应 两 个 NPE 表 的 退化 情况 
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对 于 角 块 表 ， 任 意 位 表 7 及 其 他 两 表 S AL BERN RIT BA. RT 由 长 度 不 起 
it 2n-3 的 位 表 组 成 。7 的 长 度 会 随 着 打包 结构 动态 变化 ; 大 多 数 的 打包 不 需要 表 
中 2n -3 的 全 长 。 但 如 果 我 们 在 表示 中 为 表 7 指定 固定 长 度 ,一些 CBL 具有 相同 S 
AIL, (AX T 的 尾部 不 同 可 表示 相同 的 包 。 为 弥补 该 不 足 ， 可 以 在 打包 过 程 中 记录 
de T 的 有 效 长 度 ， 这 样 在 优化 过 程 中 就 能 控制 元 余 移 动 的 概率 。 如 图 4- 13 所 示 ， 
如 果 将 7 的 长 度 固定 为 2n -3 =5， 那 么 图 4-13 中 的 两 个 表 都 代表 相同 的 打包 。 原 
因 在 于 ?了 的 有 效 表 仅 为 1000), XEERZEIR2, 3484 (UR E 1 SR. Alt, TWA 
效 长 度 为 3; 然而 ， 如 果 我 们 考虑 到 该 信息 ， 那 两 个 表 就 是 相同 的 。 
314 Sot (234) S=¢ 12374) 
THH Gems o ges 
图 4-13 CBL 表示 中 的 宛 余 :7T 的 合法 长 度 是 3 


在 SP 中 ， 两 个 序列 工 + 和 工 - ， 分 别 从 左上 到 在 下 和 从 左下 到 右上 排列 了 所 
有 的 块 。 当 两 个 块 相对 位 置 都 是 之 上 和 之 右 ， 那 么 它们 在 + 中 的 相对 位 置 有 多 种 
选择 〈 见 图 4-14 中 的 块 D 和 下) 。 同 理 ， 如 果 两 个 块 相对 位 置 都 是 之 下 和 之 左 ， 那 
么 它们 在 下 -中 的 相对 位 置 就 有 多 种 选择 。 该 元 余 表示 导致 了 布局 规划 到 表示 的 一 
对 多 映射 。 


SPI = (ABECFDG, ADCGBFE) 


SP2 = (ABCDEFG, ADCBGFE) 





图 4-14 对 于 相同 打包 的 了 元 余 SP 表示 


考虑 布局 规划 的 表示 ，NPE ”是 对 于 切片 布局 规划 的 非 宛 余 表 示 法 。TBSG?! 
和 Q 序列 “ 是 两 种 对 于 灸 府 布 局 规划 的 非 宛 余 表 示 法 。 然 而 ， 没 有 对 于 总 体 布局 
规划 的 非 元 余 表 示 法 。 尽 管 所 有 总 体 布局 规划 可 通过 在 TBS 中 插入 空闲 空间 实现 ， 
但 描述 插入 哪个 空闲 空间 的 信息 是 不 一 致 的 。 因 此 ，TBS 不 容易 扩展 成 为 完整 描述 
总 体 布局 规划 的 简便 表示 法 。 

4.3.2.3 3D 设计 的 适应 性 

为 了 将 2D 布局 规划 表示 法 扩展 以 处 理 含 2D 块 的 3D 布局 规划 ， 要 构建 2D K 
IERE (2D 矩阵) ， 其 中 每 个 矩阵 代表 位 于 一 个 芯片 层 的 用 任意 2D 表示 法 表示 的 
所 有 块 。 有 两 种 实现 层 指定 的 方法 : 中 在 打包 优化 之 前 ， 考 虑 某 些 层 间 约束 或 目标 
的 情况 ， 把 块 指定 到 层 ， 然 后 在 打包 优化 过 程 中 保持 层 指定 关系 不 变 ; @ 初 始 化 层 
计生， 随后 在 打包 优化 过 程 中 在 层 间 交换 块 。 第 一 种 方法 可 能 会 限制 解 空间 并 失去 
最 终结 果 的 最 优 解 ， 但 能 简化 问题 并 使 层 间 约束 更 容易 满足 。 第 二 种 方法 更 灵活 并 
将 有 可 能 得 到 多 个 日 标 间 更 好 的 折 中 。 因 此 ， 在 本 章 中 ,我 们 使 用 第 二 种 方法 ， 即 
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使 用 层 指 定 和 每 层 布 局 规划 同步 确定 的 方法 。 

相 比 2D 布局 规划 ,， 含 2D 块 的 3D 布局 规划 需要 考虑 更 多 的 问题 ， 如 热 分 布 、 
垂直 相对 位 置 约束 以 及 热 过 孔 插 和 人 入。 由 于 了 B * 树 和 0 树 仅 代 表 紧 凑 打 包 ， 有 可 能 捕 
捉 不 到 最 小 线 网 长 度 解 和 最 优 温度 。 出 于 热 分 布 的 考虑 ， 由 于 块 间 的 日 空间 有 助 于 
隔离 热 块 并 可 用 于 热 过 孔 插 入 ， 紧 凑 打 包 不 是 必需 的 。 同 时 为 处 理 物 理 关 系 约 束 ， 
如 对 齐 约束 ， 块 间 的 几何 关系 非常 有 用 。 我 们 比较 的 典型 的 2D 表示 法 来 说 明 仅 含 
2D 块 的 3D 布局 规划 的 脉络 。 

SP 和 TCG 都 可 表示 总 体 打 包 ， 复 杂 度 为 O(n^). 。 宛 余 典 型 地 视 为 对 序列 对 和 
TCG 的 限制 。 序 列 对 表示 法 较 简 单 而 且 衡 量 移动 的 时 间 更 短 ， 但 是 块 间 的 几何 关 
系 不 如 TCG 中 的 清晰 ， 因 而 TCG 易于 扩展 到 处 理 物理 约束 。 

如 CBL 基于 空间 的 表示 法 也 是 一 个 不 错 的 选择 ， 因 为 其 中 块 可 以 在 空间 中 移 
动 而 不 影响 表示 和 拓扑 关系 ， 因 此 本 地 增 量 改善 将 更 容易 。CBL 表示 法 可 在 线性 
时 间 内 衡量 ,而 且 有 比 SP 和 TCG By Ay eas la], (AE (REN TT 

因此 ， 通 过 不 同 复杂 度 和 灵活 性 的 折 中 ， 多 种 表示 法 可 用 于 含 2D 块 的 3D 布 
局 规划 。 在 4.5.2 节 中 采用 了 TCG 表示 法 ， 以 一 个 桶 形 结构 编码 z 轴 相 邻 信息 ， 这 
方法 称 为 桶 和 2D 和 矩阵 的 组 合 (CBA)”。 


4.4 含 三 维 块 的 三 维 布局 规划 表示 法 


与 2D 打包 相似 ，3D 立方 打包 也 分 为 两 大 类 : 切片 和 总 体 非 切 片 。 在 总 体 3D 
封装 中 ， 也 有 一 个 子 集 称 为 3D 镶 腐 打包， 其 包含 所 有 切片 结构 和 部 分 非 切 片 结 
构 。 因 此 ， 本 节 中 介绍 几 种 典型 的 表示 法 : 3D UI |I. 3D CBLU* 和 三 元 序列 、 
五 元 序列 。 


4.4.1 三 维 切 片 树 


我 们 可 以 用 与 *、y 或 z 轴 垂直 的 面 递 归 切 割 3D 块 得 到 切片 结构 (假定 3D 块 
的 表面 与 *、y 或 z 轴 垂直 ) 。 切 片 布局 规划 可 用 定向 二 叉 树 表示 ， 称 为 切片 树 (UL 
图 4-13)。 树 的 每 个 内 部 节点 标示 为 X,Y 或 Z。X 坐标 表示 对 应 的 平面 模块 是 由 
He ELT x 轴 的 平面 切割 得 到 的 。 同 理 ，Y、Z 分 别 代 表 y RU z 轴 项 。 每 个 叶子 节点 
对 应 一 个 基本 3D 块 并 用 其 名 称 表示 。 与 2D 切片 表示 法 类 似 ， 偏 移 的 3D 切片 树 也 
能 用 于 避免 元 余 。 在 3D 的 偏 移 切 片 树 中 ,没有 节点 与 其 右 子 节点 有 相同 的 表示 
( RE 4-15). 


4.4.2 =Œ CBL 


3D 打包 的 拓扑 是 在 3D 块 对 之 间 相 对 关系 的 系统 。 采 用 的 方式 是 如 果 块 “a” 
的 任意 点 均 在 “b” 的 任意 点 左 侧 ， 那 么 称 “a” 在 “b” 之 左 。“ 之 右 ”、“ 之 上 ”、 
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图 4-15 用 偶 移 切片 树 表 示 的 三 维 切片 布局 规划 


“之 下 ”、“ 之 前 ”、“ 之 后 ”的 关系 近似 地 定义 。 与 2D 打包 的 镶 租 结构 类 似 ，3D 
布局 规划 将 总 打包 区 域 分 割 为 有 侧面 的 立方 空间 。 每 个 立方 空间 含 一 个 立方 块 。 

因此 ， 为 了 代表 3D 镰 诅 布局 规划 的 拓扑 关系 ， 每 个 立方 块 用 一 个 立方 空间 表 
示 并 且 空 间 在 x、y 或 z 轴 方向 互相 覆盖 。 在 从 左下 前 角 向 右上 后 角 的 打包 过 程 中 ， 
如 采 块 A WEHA ud B 的 空间 ， PAIR A 的 空 3 间 彻 底 地 被 块 B 的 侧面 及 侧面 的 
扩展 面 履 盖 。 如 图 4-16 所 示 ， 每 个 空间 的 方向 由 其 覆盖 其 他 空间 的 方向 定义 。 因 
JE, WAR 个 新 块 4 将 插入 图 4-16b 的 打包 ， 那么 块 4 能 在 *、y 或 z 方 向 上 种 盖 屠 
些 打包 的 块 11，2,，31|。 新 插入 的 块 将 定位 在 右前 后 角 以 使 其 可 定义 为 角 立 方块 。 
对 于 每 个 方向 ， 因 为 其 中 的 一 些 可 能 已 经 被 之 前 打包 的 块 覆 盖 ， 所 以 不 是 所 有 的 打 
包 块 的 空间 可 被 覆盖 。 如 图 4-16b Prax, 块 1 已 经 被 块 2 在 x 方向 上 种 盖 ; 块 4 的 
新 空间 仅 能 在 > MUT ERG 2. 、 块 3 或 同时 覆盖 两 者 的 空 间 。 因 此 ， 一 个 打包 
序列 中 未 覆盖 的 块 可 定义 为 每 个 方向 ， 其 记录 了 当前 可 被 覆盖 的 块 。 在 图 4- 16b 
H, FER 4 AB, 2 OT EAB MRE 101, 2, 31, y 轴 方 向 上 未 覆盖 的 
块 表 是 11，3} ,x 轴 方 向 上 未 覆盖 的 块 表 是 |2，31}。 


ffi A. block4 


删除 block4 
E S 
S474 
Lez 
T 71110 


| 





a) b) C) 
Al4-16 角 立 方块 的 过 程 : a) 确立 x、y、z 方 向 ; b) 角 立 方块 为 3 并 解 开 的 块 表 在 z 轴 
方向 为 [1, 2, 3]; e) 角 立 方块 为 4， 当 四 - MIO 时 其 在 11, 2, 3} 面 上 覆盖 了 3 块 ; 
在 z 轴 的 未 覆盖 块 表 变 为 14} 并 且 对 应 3D CBL: 
号 
除了 有 罗 兰 方向 和 对 应 方向 上 的 未 履 盖 块 表 ， 仍 需要 的 信息 是 要 覆盖 哪个 或 哪 
re 一 个 方 回 上 的 未 覆盖 块 表 为 |B 
B,，…B,} 。 如 图 4-16c IR, z 轴 方 向 上 的 未 覆盖 块 表 是 |1, 2, 3], ln dA 
WEBA us SR 的 空间 ， 块 4 的 空间 将 同时 覆盖 块 2 AER 3 的 空间 。 因 此 ， 为 确 
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定 插入 块 的 位 置 ， 被 该 块 空间 覆盖 的 块 数 记录 在 未 覆盖 块 表 中 。 随 着 新 块 的 插入 ， 
未 覆盖 块 表 应 该 动态 更 新 。 最 后 m 块 {Bn B) EEN ABE RA i, 
于 是 ， 更 新 的 未 覆盖 表 在 块 B 插入 后 应 为 1B,, …B,_，,，B}。 

因此 ， 与 插入 的 角 块 B 的 打包 过 程 相关 的 信息 应 包括 : RAE, DEus 7r I6] A 
在 未 覆盖 表 中 被 B 覆盖 的 块 数 。 为 优化 过 程 利于 新 解 的 生成 ， 二 进 制 序列 T, 用 于 
记录 在 未 覆盖 表 中 覆盖 的 块 数 ， 其 中 “1” 的 数目 对 应 覆盖 的 块 数 。 每 个 “1” 品 
以 “0” 结束 来 将 其 与 下 一 个 块 的 记录 分 隔 开 来 。 给 一 个 3D 打包 ， 可 以 得 到 块 名 
称 的 序列 S、 方 向 的 列表 L MB dH (Dn, T, |, Tlo —2578 d 
(S, L, T) 组 成 了 3D CBL ( 见 图 4-16c)。 图 4-17 按 步 又 示 出 了 打包 实例 。 





图 本 17 FEH: S= {12345}; E-|1Z, Y, Z, Xi; T= 410, 110, 10, 1110] 


4.4.3 三 元 序列 


三 元 序列 ( ST)“ 是 顺序 三 序列 块 标 ， 其 由 2D 打包 使 用 的 序列 对 扩展 而 来 。 
三 元 序列 (ST) 表示 为 ST (T,, P, T;)。 5 SP 相似 ，ST 也 有 其 解码 规则 以 表 
示 块 间 的 拓扑 关系 。 


(abes, bb )—b Æ a ZJE 
Cab， searbhas, obras) ob 在 a 之 大 
(abes, bean, ceasb-e)—b TE à ZU 
(regine, hrsg, bea) ob Ham TF 
(…b…a…，…b…a…，…b.…a.…)-b 在 a 之 前 
(…b…a…，…b…a…，.…a…b.…)-b 在 a 之 右 
[之 大 
(eeban, cearb, bb 在 a 之 上 


给 定 ST, 3D 打包 的 实现 如 下 : 将 表示 法 解码 到 RL, FR 和 AB 拓扑 的 系统 。 
随后 ， 构 建 3 个 约束 图 Gr 、Grmn 和 Gss， 都 与 2D 打包 类 似 。 然 后 ， 到 每 个 顶点 的 
最 长 路 径 长 度 定位 了 对 应 的 箱 体 ， 即 左下 前 角 的 (x, y, z) 坐标 。 
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图 4-18 是 3 个 块 及 其 对 应 ST 的 打包 实例 。 由 于 在 3 个 块 间 有 空洞 ， 图 4- 18 
中 的 打包 不 是 3D 灸 峙 打包 ， 而 且 不 能 由 3D CBL zm. 





[4-18 含 空 闲 空间 的 打包 可 以 用 三 元 序列 (bac, acb, abe) 表示 


与 3D CBL 相似 ，3D 块 对 之 间 的 相对 关系 有 之 左 、 之 右 、 之 前 、 之 后 、 之 上 
和 之 下 。3D CBL 和 ST 给 每 个 箱 体 对 准确 的 直接 关系 约束 以 使 约束 保持 可 转移 度 。 
换 句 话说 ， 如 果 在 对 间 存在 间接 关系 约束 ， 与 直接 关系 约束 并 无 不 同 。 如 图 4- 19a 
BUR. a 在 b 之 下 。 同 理 ,b 必须 被 约束 到 d 之 下 。 尽 管 a 不 需要 约束 到 直接 位 于 
d 之 下 ，a 也 通过 c 间接 的 约束 到 位 于 d 之 下 。 同 理 ，a 通过 e 间接 地 约束 到 d 之 
Mo FE, a 间接 地 约束 到 d 之 前 之 下 ， 并 且 a 和 d 的 对 有 两 个 间接 的 相对 关系 约 
束 。 存 在 需要 在 一 个 块 对 上 包含 两 个 或 三 个 间接 关系 约束 的 3D 打包 。 这 些 3D FT 
包 称 为 “B 型 "。 众 所 周知 ，B 型 的 3D 打包 不 能 用 ST 或 3D CBL 表示 。 





图 4-19 B 型 3D 打包， 其 中 a 块 和 b 块 具有 两 种 非 直 接 联系 


因此 ， 提 出 了 表示 所 有 3D 打包 的 5 个 序列 的 系统 ， 表 示 为 =T, T,, L, 
ra, Ts) 并 称 为 五 元 序列 (Squin) 。 从 五 元 序列 构建 打包 的 算法 如 下 : 

e 第 一 步 : 构建 左右 约束 图 GRL KKT, T, 的 RL 拓扑 关系 。 遵 循 的 原则 
与 序 列 对 相似 ， 但 不 限于 左右 关系 : 

(Tie Zaen ap es be ea Dia k m h > Ja TE b zi 


O 疑 原 书 误 ， 应 为 之 左 。 一 一 译 者 注 


BAe TBR 3D 布局 规划 65 

由 (T3, P) 构建 出 前 后 约束 图 Grr ， 遵 循 的 规则 如 下 : 

(Taa garo a, de. b, e»; p, «€, i, x. b, … > ) 一 a TE b ZZ Bi 

。 第 二 步 : 确定 Gu 和 Ga 中 的 最 长 路 径 以 使 每 个 块 定位 在 其 zx -y 坐标 。 如 采 
在 投影 到 x — y 平面 中 重合 则 称 为 两 个 块 x -y BE 

。 第 三 步 : 构建 上 下 约束 图 Gs 如 下 。 对 每 个 块 对 ， 加 入 从 a 到 b 的 边 并 当 且 
(024 a Alb fi x -y BBMIFATS <1], a, “y b; > 

e 第 四 步 : 通过 Gss 中 的 最 长 路 径 确 定 z 坐标 。 

五 元 序列 可 表示 所 有 3D 打包 已 被 证 明 。 从 五 元 序列 构建 打包 的 算法 的 复 淋 度 


是 O(n )。 
4.4.4 多 种 表示 法 的 分 析 


3D 打包 问题 比 2D 打包 复杂 得 多 。 我 们 从 两 个 角度 分 析 多 个 表示 法 : BARE 
Al 3D 块 的 3D 布局 规划 的 灵活 度 。 

1. 复杂 度 

表 4-2 给 出 了 几 个 3D 打包 表示 法 的 特性 。 切 片 树 代表 的 3D 打包 比 3D CBL 
少 ，3D CBL 代表 的 3D 打包 比 ST 少 。ST 代表 的 3D 打包 比 Squin (五 元 序列 ) 少 
(3D 切片 树 C3D CBLCSTCSquin) , Squin 可 以 代表 任意 3D 打包 。 


表 4-2 一 些 3D 打包 表示 法 特性 













dX om 法 布局 构建 的 复杂 度 移动 的 复杂 度 打包 种 类 解 s 间 


如 果 茶 些 分 块 面 在 同一 条 线 相 遇 ， 我 们 称 此 情况 为 退化 拓扑 。 如 果 将 退化 拓扑 
视 为 一 种 特殊 情况 ， 那 么 ”可 以 通过 将 一 个 面 移 开 一 小 段 距离 分 开 它 们 以 使 块 间 的 
拓扑 关系 唯一 。 在 此 假设 下 ， 偶 移 3D 切片 树 是 非 元 余 表 示 。 随 着 工 表 信息 的 动态 
更 新 ，3D CBL 也 可 以 非 元 余地 表示 3D BERTI EL. 但 ST 和 Squin 因 其 转移 特性 而 
具有 元 余 。 当 两 块 的 相对 位 置 都 为 右上 或 都 为 右 下 等 情况 时 ， 它 们 在 表 中 的 相对 位 
置 有 多 种 选择 。 该 元 余 表 示 引 发 了 布局 规划 到 表示 法 的 一 对 多 映射 。 

2. 7% 3D 块 的 3D 布局 规划 的 灵活 度 

含 3D 块 的 3D 布局 规划 的 问题 需要 为 每 个 块 在 候选 池 里 选择 最 优 的 配置 。 


© than 应 为 then， 原 书 误 。 一 一 译 者 注 
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同时 由 于 一 些 设计 约束 ， 如 2 高度 约束 ， 在 优化 过 程 中 是 强制 性 的 。 因 此 ， 如 
果 含 3D 块 的 3D 布局 规划 表示 法 可 以 灵活 处 理 该 要 求 的 话 ， 将 会 更 好 。 基 于 
3:34, 3D CBL 中 从 表 到 打包 的 转化 可 以 在 线性 时 间 内 逐次 地 从 左下 到 右上 进 
行 。 与 基于 图 的 表示 法 或 序列 家 族 相 比 ， 通 过 动态 修复 违反 情况 来 处 理 约 束 会 
更 容易 。 在 以 下 的 章节 中 ， 一 种 基于 CBL 表示 法 的 试探 法 可 在 打包 过 程 中 用 
于 修复 违反 Z 高 度 的 约束 。 该 方法 确保 了 最 终结 果 的 可 行 性 并 改善 了 收 伍 过 
程 。 基 于 3D CBL 的 立方 布局 规划 构建 是 0(n) 次 的 ， 其 中 是 块 数 。 但 3D 
CBL 主要 的 缺点 是 打包 解 空 间 大 大 小 于 ST 和 Squin。 因 此 ,任意 3D 打包 表示 
法 均 可 用 于 3D 布局 规划 。 


4.5 优化 技术 


由 于 2D 和 3D 和 矩形 打包 问题 是 NP 困难 的 ， 大 多 数 布局 规划 算法 基于 模拟 退火 
和 遗传 算法 的 随机 组 合 优化 技术 。 但 最 近 有 些 人 研究 关注 定性 方法 从 而 使 解析 算法 用 
于 3D 布局 规划 。 


4. 5.1 模拟 退火 


现今 当 穷 举 法 代价 太 高 时 ， 随 机 优化 方法 用 于 大 量 的 应 用 场合 。3D 布局 规划 
的 目标 是 通过 搜索 由 特定 表示 法 表示 的 解 空 间 ， 最 小 化 给 定 的 成 本 困 数 。 通 币 ， 成 
本 盟 数 摘 述 了 必 片 面积 、 线 网 长 度 、 最 大 片上 温度 或 其 他 因子 的 组 合 。 

在 本 市 中 将 介绍 模拟 退火 方法 在 3D 布局 规划 中 的 应 用 。 一 般 来 说 ， 模 拟 退 火 
法 是 由 蒙特 卡 罗 方 法 用 于 检查 体系 统 状 态 和 冻结 状态 等 式 的 方法 归纳 得 到 的 “”。 
作为 最 常用 的 随机 优化 方法 之 一 ， 模 拟 退 火 成 功 地 应 用 于 许多 VLSI 版 图 领域 的 问 
题 。 算 法 模拟 了 熔化 点 附近 的 退火 温度 ， 随 后 缓慢 冷却 以 使 其 结晶 为 高 度 规则 的 状 
仿 。 消 耗 在 每 个 温度 的 时 间 要 足够 长 以 达到 热平衡 。 图 4-20 示 出 了 基于 模拟 退火 
方法 的 优化 步骤 。 


4.5.2 基于 SA 的 含 二 维 块 的 三 维 布局 规划 


随 看 加 入 的 Z 方 喇 ， 堆 合 结 构 显 闭 扩 大 了 解 空 间 。 因 此 ， 一些 基 于 SA 的 3D 
布局 规划 方法 ”提出 了 分 级 结构 ， 其 中 层 指 定 和 布局 规划 连续 实现 。 每 个 块 的 
层 号 在 模拟 退火 过 程 中 固定。 虽然 这 些 方法 减 小 了 问题 的 复杂 度 ， 但 它们 也 可 能 
于 在 优化 过 程 中 限制 层 指 定 而 失去 了 优化 性 。 这 里 介绍 一 种 平面 设计 结构 ”， 其 
中 层 指 定 和 每 层 的 布局 规划 同时 确定 。 因 此 ， 块 可 在 搜索 过 程 中 从 一 层 移 到 另 一 
层 。 结 合 之 前 章节 介绍 的 表示 法 ， 可 在 含 2D 块 的 3D 布局 规划 中 应 用 SA 优化 方 
案 。 要 设计 一 种 高 效 的 SA 方案 ， 下 面 几 个 问题 很 关键 : 

1) 解 的 表示 法 : 由 于 每 层 的 打包 可 以 用 2D 表示 法 表示 ， 故 多 层 打 包 可 以 用 
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初始 仿真 的 退火 温度 (Temp) 
和 随机 初始 打包 


新 解 二 随机 移动 (当前 3D 表 示 ) 


基于 新 解构 建 打 包 
计算 新 解 的 代价 函数 


新 解 的 代价 函 


数 是否 优 于 当前 解 ? 45 


接受 新 解 为 当前 解 以 (Acost/Temp) 
的 概率 接受 新 解 为 当前 解 


f 是 否 达 到 本 温度 阶梯 
的 最 大 尝试 次 数 ? 
是 


按 阶梯 步 长 减 小 温度 (Temp) 





温度 是 否 达到 最 小 值 
或 步 数 达到 最 大 值 ? 


是 
图 4-20 仿真 的 退火 方法 的 流程 图 


2D 表示 法 和 矩阵 表示 并 且 通 过 将 块 移 人 每 层 或 在 层 间 交换 实现 解 的 微调 。 但 为 了 克 
服 缺少 不 同 层 间 块 的 相对 位 置信 息 引 入 的 限制 ， 可 将 z 方 向 相 邻 信息 使 用 附加 的 桶 
结构 编码 。 在 每 个 桶 莽 中 ， 存 储 了 与 桶 交叉 的 块 的 索引 ; 不 论 块 位 于 哪 层 之 上 ， 索 
引 集 均 定 为 IB(i) 。 同 时 ， 每 个 块 j 存储 了 对 所 有 与 块 交 闪 的 桶 的 索引 ; 索引 集 定 
为 IBT(j)。 因 此 ,提出 了 桶 和 2D 矩阵 (CBA) 的 组 合 ; 由 两 部 分 组 成 一 一 一 种 用 
于 表示 每 层 的 2D 布局 规划 表示 法 , 一 种 存储 块 间 垂 直 关 系 的 桶 结构 。 在 本 章 中 选 
FE TCG 来 表示 每 层 上 的 2D 打包。 

2) 冷却 步骤 : 整个 冷却 步骤 包括 初始 温度 的 设 定 、 冷 却 函数 、 终 止 温 度 。 该 
过 程 依赖 问题 的 大 小 和 问题 的 特性 。 

3) 解 的 微调 : 以 CBA 表示 法 为 例 。 共 有 7 种 CBA 上 的 操作 ， 如 下 所 示 : 

(D 旋转 ， 旋 转 块 ; 

— QQ 交换 ， 同 层 间 交换 块 ; 
( 反 转 ， 交 换 同 层 中 两 块 的 相对 位 置 ; 
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D 移动 ， 将 块 从 某 块 的 一 侧 (如 上 方 ) 移动 到 其 男 一 侧 (如 左 方 ); 

O 层 间 交换 ， 在 不 同 层 间 交换 块 ; 

(6 z 相 邻 交换 ， 交 换 在 不 同 层 间 但 互相 邻近 的 块 ; 

CD z 相 邻 移动 ， 将 块 移动 到 另 一 层 与 当前 位 置 邻近 的 位 置 。 

4) 成 本 函数 : 每 生成 一 次 块 配置 ， 就 会 求 一 次 优化 目标 和 约束 的 加 权 成 本 。 
成 本 函数 可 表示 为 

Cost = aW, + BA na + y N,;, + OT 

RP, W, 是 用 半 周 长 模型 估算 的 线 网 长 度 ; 4 是 所 有 层 最 大 高 度 和 宽度 的 乘积 ; 
N a 是 层 间 过 和 孔 的 数目 ; 了 是 最 大 温度 。 在 3D 设计 中 ， 片 上 温度 极 高 ， 导 致 必须 计 
算 封闭 的 温度 /漏电 功 耗 反馈 环 才 能 准确 估计 或 优化 这 两 者 。 


4.5.3 基于 SA 的 含 三 维 块 的 三 维 布局 规划 


基于 模拟 退火 的 含 3D 块 的 立方 打包 过 程 与 含 2D 块 的 3D 布局 规划 相似 。 但 我 
们 这 里 研究 的 含 3D 块 的 3D 布局 规划 问题 不 止 关乎 块 的 位 置 ， 还 包括 块 的 配置 。 
与 之 前 基于 模拟 退火 的 布局 规划 方法 不 同 ， 在 打包 过 程 中 ,“ 块 ”配置 的 选择 被 动 
态 的 集成 。 

因为 表示 法 是 模拟 退火 的 关键 问题 ， 我 们 以 3D CBL 为 例 介 绍 基 于 SA 方法 的 
过 程 。 由 于 根据 不 同 的 分 块 方法 使 候选 块 在 上 太 寸 、 延 退 、 功 耗 和 层 数 上 的 变化 ， 块 
的 配置 信息 可 在 优化 过 程 中 选择 。 因 此 ， 为 了 给 块 选择 最 可 行 的 配置 ， 定 义 了 新 操 
作 “ 可 替换 选择 ”来 创建 新 解 。 

1) 在 多 个 候选 块 中 随机 选择 块 i; 

2) 在 候选 表 中 随机 选择 一 个 可 行 的 候选 ; 

3) 根据 候选 的 尺寸 更 新 块 io 

生成 邻接 解 所 用 的 移动 基于 任意 一 种 以 下 操作 : 

1) 随机 交换 S 中 块 的 顺序 ; 

2) 随机 在 过 中 选择 位 置 并 改变 方 癌 ; 

3) 随机 在 7 了 中 选择 位 置 , 使 “1” 变 为 “0” 或 使 “0” 变 为 “1”; 

4) 可 替换 选择 。 

多 种 组 分 候选 极 大 地 扩展 了 解 空 间 。 特 别 对 于 一 些 层 数 约 束 ， 部 分 解 是 不 可 行 
的 。 因 此 ， 建 议 使 用 试探 的 方法 来 加 速 搜索 进程 。 

成 本 清 数 也 使 用 加 权 的 面积 、 温 度 和 线 网 长 度 组 合 ， 其 可 表示 为 

Cost Zw, X4 +w X Tomp tw, XW,. 

在 块 的 当前 布局 规划 下 ，4,.。( 面积 ) 是 布局 规划 的 总 面积 。7,,,，( 温 度 ) 对 
应 基于 温度 仿真 带 的 最 大 片上 温度 。 系 数 w, w, 和 ws 用 来 控制 每 站 组 分 的 不 同 
加 权 。 
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Wi. 传统 方法 是 在 成 本 函数 中 处 罚 违反 情况 。 然 而 ， 该 方法 不 能 保证 最 终结 构 的 可 
行 性 ， 并 将 减 慢 优 化 的 收敛 速度 。 在 3D CBL 表示 法 中 ， 块 打包 在 序列 中 。 因 此 ， 
块 或 CBL 表 可 在 打包 过 程 中 动态 的 改变 。 如 果 某 些 块 超出 了 层 数 约束 ， 那 么 这 样 
的 违反 可 通过 降低 块 或 改变 块 的 方向 修复 。 我 们 采用 以 下 的 步骤 修复 违反 情况 : 
1) 尽 可 能 多 地 保留 拓扑 结构 ， 首 先 通 过 选择 一 个 较 低 的 候选 方案 努力 改变 块 
实现 。 
2) 如 果 通 过 改变 候选 方案 不 能 修复 违反 ， 就 努力 修改 3D CBL 表 来 实现 一 种 
可 行 的 打包 。 如 果 块 B Bik z ATH ECAR, 意味 着 块 B 将 置 于 打包 块 的 顶 
Jit, MURIR B 超过 了 层 数 约束 ， 我 们 可 以 将 覆盖 方向 改变 到 x 或 y 方 向 以 使 块 
B 置 于 之 前 块 右 侧 或 后 侧 。 但 如 果 块 B 的 z 位 置 仍然 过 高 ,我 们 可 以 通过 增加 T, 
中 “1” 的 数目 将 块 B 动态 地 移动 到 更 低 的 位 置 。 因 为 T, 表示 在 Le 方向 上 被 B $3 
mRNA, MAKRA T, 中 “1” 的 数目 时 块 B 将 被 移动 到 更 低 的 块 。 
该 过 程 将 持续 到 块 B 满足 层 数 约束 为 止 。 给 定 设计 2,,, 中 的 层 数 ， 就 会 将 CBL KA 
摘 以 从 左下 前 角 向 右上 后 角 打 包 块 。 打 包 的 块 B 的 左下 前 角 坐 标 为 (xs，ys，z;)， 
对 应 的 实现 为 C; 。 于 是 过 程 可 描述 为 
修复 违反 算法 
输入 : 块 B 超 出 层 数 限制 : zs +z 2Z,,; 3D_CBL 和 块 B 的 候选 表 。 
输出 : 采用 B 的 新 候选 选择 c 的 新 3D_CBL; 
IE xs. 
For 候选 表 B 中 的 候选 g? 
If z, +z) wr 
选择 此 候选 c = a 并 更 新 B 位 置 ， 
返回 ; // 违 反 通 过 改变 候选 修复 
Endlf; 
EndFor; 
选择 具有 最 低 z 高度 的 候选 并 更 新 B 的 信息 ; 
If Ls =Z;// 在 z 方 向 履 盖 之 前 块 
改变 1 到 xx 或 了 方向 并 更 新 B 位 置 ; 
Endlf 
While(z, + aj PO 
在 Ts 中 增加 “1” 的 数目 ,其 意味 着 在 Ls 方向 上 被 B E E 3H Me, 
更 新 B 的 位 置 ; 
EndWhile 
EndIf 
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极端 的 情况 是 块 B 移动 到 底部 (zs =0) 。 候 选 表 应 在 每 个 块 的 z 高 度 小 于 Zon 
的 约束 下 构建 。 如 果 zs =0， 块 B 将 不 会 超过 层 数 约束 。 因 此 ， 我 们 的 算法 保证 了 
结果 的 可 行 性 。 


4.5.4 解析 方法 


大 多 数 布 局 规划 算法 都 基于 模拟 退火 技术 。 但 随机 优化 方法 基本 上 运行 时 间 较 
长 ， 无 法 有 效 减 小 问题 的 大 小 。 这 里 ， 解 析 的 方法 提供 相对 稳定 和 可 按 比 例 纵 小 的 
3D 布局 规划 优化 技术 。 在 标准 单元 的 布局 算法 中 解析 方法 得 到 广泛 的 应 用 ““ 
(将 在 第 5 革 中 详细 介绍 )。 但 在 宏 单元 的 布局 规划 上 ， 块 尺寸 和 块 形状 的 异 质 性 
使 问题 复杂 化 。 在 优化 过 程 中 的 一 个 小 变化 能 引起 最 终 合 法 打包 的 巨大 变化 。 在 随 
机 优化 方法 中 ， 块 的 拓扑 关系 由 表示 法 描述 以 保证 块 互相 不 重 侠 。 而 用 数学 计算 来 
以 线性 的 方法 规定 块 间 的 不 重 全 约束 是 困难 的 ; 因此 ， 移 除 块 间 重 友情 况 的 合法 化 
在 大 多 数 解 释 方 法 中 是 必需 的 。 在 本 市 中 将 简要 介绍 处 理 温度 敏感 的 含 2D 块 的 3D 
布局 规划 的 力 导 加 方法 ， 此 方法 在 本 章 文献 [41] 提出 。 含 3D 块 的 布局 规划 与 此 
类 似 ， 并 且 以 下 介绍 的 方法 可 以 容易 地 扩展 到 处 理 3D 块 。 

从 布局 的 解 开 始 ， 需 要 从 连续 空间 翻译 到 分 开 的 、 层 指定 并 合法 化 的 空间 的 
解 。 因 此 解析 方法 有 3 个 过 程 : 全 局 布局 、 层 指定 和 合法 化 ， 如 图 4-21 所 示 。 


3D 心 片 和 块 建 模 






三 维 力 导向 布局 规划 流程 


1. 全 局 布局 

有 许多 在 连续 区 域 优 化 单元 位 置 的 数学 方法 (将 在 第 5 章 详 细 介 绍 ) ix, 
我 们 以 基础 的 力 导 向 方法 为 例 进 行 介绍 。 力 导向 算法 模拟 了 质点 附 在 弹 往 上 并 且 它 
们 的 移动 遵循 胡 克 定律 的 机 械 问 题 。 同 质 立方 箱 体 结构 引入 两 种 力 ，3D 空间 中 的 


e HEI: 填充 力 用 于 消除 块 间 重 辣 并 将 它们 平均 分 布 在 3D 布局 空间 区 域 
中 。 其 驱动 布局 通过 在 3D 空间 中 将 块 从 高 密度 区 域 推 开 并 推 向 低 密度 区 域 来 去 除 
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度 。 块 收 到 的 填充 力 等 于 所 述 单元 覆盖 的 按 比例 分 配 的 箱 体 的 填充 力 。 

e 热力 : (第 3 章 中 介绍 的 ) 热 模型 得 到 了 布局 的 热 梯度 。 我 们 将 乐于 把 块 
(产生 热 的 ) 移动 到 高 温 的 区 域 之 外 。 该 目标 可 通过 使 用 热 梯度 以 确定 块 上 热力 的 
方向 和 大 小 来 实现 。 给 定 块 的 填充 力 和 热力 的 计算 是 对 箱 体 在 每 个 树 的 层次 上 获得 
的 独立 力求 和 。 要 考虑 从 一 个 箱 体 及 其 最 近邻 居 发 出 的 力 。 大 块 占据 多 个 箱 体 ， 结 
果 是 其 受到 比 小 块 更 大 的 力 。 

2. 层 指定 

在 优化 连续 3D 空间 的 布局 之 后 ， 块 必须 指定 到 分 开 的 IC 层 上 。 在 以 上 方法 
中 ， 每 个 块 建 模 为 3D 矩形 并 可 在 连续 3D 空间 中 目 由 移动 。 层 指定 将 块 连续 空间 
移动 到 分 离 空间 ， 强 制 每 个 块 占 据 仅 一 个 IC 层 。 力 导 癌 的 方法 努力 了 逐步 将 块 平均 
分 布 在 空间 中 。 层 指定 基于 块 在 z 轴 的 位 置 ， 其 通过 力 导 加 方法 得 到 的 当前 布局 获 
得 。 图 4-22 示 出 了 3 个 块 的 层 指定 过 程 。 





3. 最 终 合 法 化 

在 之 前 鞋 扩 介绍 的 全 局 布局 之 后 ,我们 得 到 了 带 有 少量 重 全 残留 的 多 层 打 包 
解 。 为 得 到 可 行 的 布局 ， 合 法 化 策略 微调 了 解 以 产生 无 重 羡 的 打包 ， 并 同时 尝试 保 
持 块 间 初始 的 拓扑 关系 。 合 法 化 问题 的 定义 可 描述 如 下 : 构建 重 秋 块 间 的 拓扑 关系 
使 块 错位 最 小 化 。 根 据 其 位 置 将 块 按 从 芯片 左下 角 到 右上 角 排 序 ， 可 得 到 粗略 的 拓 
扑 序列 。 如 图 4-23 所 示 ， 序 列 中 块 a 位 于 块 b 之 前 ,它们 相互 重 关 。 我 们 必须 确 
FESR b 是 否 在 块 a 的 右 侧 或 上 方 并 选择 最 优 的 方向 。 在 之 前 章节 引入 的 2D 表示 法 
可 用 于 代表 块 间 的 拓扑 关系 。 此 外 ， 块 可 在 合法 化 过 程 中 旋转 ， 这 同时 有 助 于 控制 
午 合 移 除 引发 的 错位 。 由 于 块 间 的 拓扑 关系 通过 一 些 试探 性 规则 确定 ， 直 接 的 合法 
化 会 产生 相对 于 初始 布局 的 巨大 错位 。 那 么 可 以 设计 一 种 后 过 程 以 进一步 改善 合法 
化 的 结 采 。 随 机 方法 可 用 于 本 地 调整 打包 以 使 打包 过 程 得 到 进一步 的 优化 。 

该 力 定 回 解析 方法 在 线 网 长 度 优 化 方面 比 模拟 退火 更 有 效 ， 在 下 一 节 中 将 说 
明 。 然 而 ， 这 样 有 两 个 问题 : 山 在 层 指定 方面 ， 满 足 箱 体 的 密度 约束 不 一 定 能 得 到 
合法 的 3D 布局 解 。 我 们 可 考虑 使 用 最 近 提 出 的 力 定向 3D 布局 (在 5.4 节 中 说 明 
并 在 参考 文献 [4] 中 详细 讲解 ) ， 其 介绍 了 在 虚拟 器 件 层 上 为 了 保证 分 立 3D 层 上 
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图 4-23 规格 化 过 程 


布局 的 合法 性 的 密度 约束 。@) 此 处 给 出 的 力 定向 解析 方法 仅 应 用 于 2D ER, DREI 
能 处 理 3D 块 需要 更 多 的 人 研究 。 


4.6 多 种 三 维 布局 规划 技术 的 影响 


在 本 节 中 我 们 总 结 了 2D 块 和 3D 块 构成 的 多 种 3D 布局 规划 工具 报道 的 实验 结果 。 
4.6.1 含 二 维 块 的 三 维 布局 规划 影响 


尽管 含 2D 块 的 3D 布局 规划 已 有 大 量 的 研究 工作 ， 这 里 我 们 仅 总 结 两 种 代表 
性 的 使 用 通用 示例 集 算法 的 结果 : 使 用 基于 CBA“ 的 模拟 退火 的 3D 布局 规划 器 和 
力 定 向 3D 布局 规划 器 ”。 所 有 的 算法 均 在 MCNC 基准 电路 和 GSRC 测试 通过 。 所 
有 的 电路 均 使 用 4 个 器 件 层 。 我 们 首先 比较 使 用 非 热 敏感 的 多 种 表示 法 的 含 2D 块 
的 3D 布局 规划 算法 的 结果 。 如 表 4-3 所 示 ， 线 网 长 度 使 用 半 周 长 线 网 佑 计 模 型 佑 
算 (HPWL)。 与 使 用 基于 CBA 的 模拟 退火 的 3D 布局 规划 器 相 比 ， 在 取 所 有 基 
准 电 路 平均 值 时 ， 力 定向 方法 减 小 了 4% 的 面积 ， 改 善 了 12% 的 线 网 长 度 ， 并 且 在 
CBA 所 需 运 行 时 间 的 69% 以 内 完成 了 程序 的 执行 。 

表 4-3 2D 块 布局 成 的 两 个 3D 的 面积 和 线 长 优化 
CBA"? Jj 8:8] ^ 


MEME ME 
eR mA 


# 4-4 示 出 了 CBA PAJE Ie) FE FE ea AR. RK BER SLE. EL FECE 
里 ， 每 个 块 的 功率 密度 定 在 10-10 W/m? ^ 1 之 间 。 一 种 空间 可 适应 3D ten 
封装 热 分 析 的 软件 包 的 扩展 版 本 ”” 用 作 热 分 析 模 型 ， 以 用 来 衡量 热 分 布 情况 。 这 
里 假定 漏电 流 功 耗 是 固定 的 。 但 依赖 温度 漏电 流 功 耗 模型 可 用 于 描述 漏电 流 一 一 温 
度 反 馈 。 读 者 们 可 参考 本 章 参 考 文献 [41] 来 获得 详细 信息 。 
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44-4 优化 区 域 、 线 长 和 温度 时 ，CBA 和 力 定向 方法 比较 
CBAU! Jj 5m] 4! 
ve | 66 | 237 | me: | ome | 62 | irs | 16 | on 


N300 324. 9 190. 8 18475 236. 7 168. 2 1394 


图 4-24 示 出 了 通过 力 定 向 方法 得 到 的 4 层 打包 及 其 对 应 的 功 耗 分 布 和 热 分 布 。 
局 功率 密度 的 块 指 定 到 底层 以 减 小 峰值 温度 。 与 基于 SA 的 方法 相 比 ， 解 析 方 法 更 
加 稳定 并 能 在 更 短 时 间 内 获得 更 好 的 结果 。 但 基于 SA 的 方法 在 处 理 附 加 的 目标 和 
约束 时 更 加 灵活 。 
， 


温度 图 








图 4-24 通过 力 导 向 方式 得 到 的 具有 功 耗 分 布 和 热 前 面 的 4 层 打包 
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4.6.2 含 三 维 块 的 三 维 布局 规划 的 影响 


大 多 数 发 表 的 含 3D 块 的 3D 布局 规划 算法 在 用 于 本 章 参考 文献 [17」 中 所 到 
的 旅行 者 问题 的 基准 电路 上 测试 它们 的 算法 。 权 重 系数 视 为 第 三 维度 ， 并 因此 变 为 
三 维和 矩形 打包 问题 。 表 4-5 示 出 了 3 种 算法 的 比较 结 采 : 3D CBL, ST 和 3D-TCG, 
对 于 这 些 结果 ， 我 们 可 以 看 到 由 表 构 建 布 局 规划 时 3D CBL 因 其 线性 时 间 复 杂 度 比 
其 他 两 种 算法 运行 更 迅速 。 但 受 解 空间 的 限制 ，3D CBL 的 打包 结果 不 如 3D- sub 
TCG 好 ， 特 别 是 对 于 较 大 电路 的 情况 。 


表 4-5 3 种 算法 结果 比较 : 3D CBL, ST 30 3D- TCG 


测 试 | 块 编号 | 体积 总 量 i. ees mE - EXPE 
DAMES 死 空间 /5% | 运行 时 间 /s| 死 空间 /9% | 运行 时 间 /s 


Tk 


5 


beasley2 17 nae 
beasley3 21 ETE 
beasley6 | 15 | 11040 — 
-— | wvnés | 30 
beasley10 13 25. 13. 0 
beasleyll | 15 | 383391 | 24 
[sem 
IET 
[ws 
[nmn 
E 
[nen 


beasley12 22 


( 

oo 

U 

m 

© 

N 

A 

o | N 

- 
un 

N 

o 

wi | ta 

N | N 

c 


okpl 50 
okp2 30 


okp3 30 


1.23*10* 22:1 280. 7 23.0 70. 6 26.3 56 
2.38:* 10° 42.8 791.3 27.3 501.9 28.6 320 
52.7 607. 8 35.8 565.9 36.2 340 


为 表示 出 热 敏 感 的 含 3D 块 的 3D 布局 规划 的 影响 ,衡量 结果 用 于 高 性 能 超标 
量 处 理 器 ”” 。 表 4-6 示 出 了 处 理 器 使 用 的 基本 参数 。 由 于 每 个 关键 元 件 有 可 表 
ANAT 3D 块 的 不 同 实现 方式 ， 打 包 引 | 擎 可 成 功 打 包 块 并 在 层 数 约束 下 为 每 个 块 选择 
最 优 实现 。 图 4-25a 示 出 了 含 3D 块 的 两 层 打 包 布 局 规划 的 3D 视图。 面积 为 3.6 x 
3. 6mm 。 打 包 引 擎 在 单 层 和 两 层 块 结构 间 选 择 。 对 于 如 ALU, MUL 和 二 级 缓存 
单元 的 块 ， 选 择 使 用 单 层 实现 。 其 余 的 块 在 两 层 上 实现 (我 们 使 用 立方 块 代表 
多 层 块 ) 。 


okp4 
okp5 


NC 
N 
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4-6 设计 驱动 程序 的 架构 参数 


处 理 器 宽度 6 路 乱 序 超标 量 体 系 结构 ， 二 整数 簇 

寄存 器 文件 128 项 整数 (两 个 已 复制 文件 ) 128 项 浮 点 处 理 需 
数据 缓存 8 KB 的 4 路 集 联 ，64B 块 的 大 小 
指令 缓存 8 KB 的 2 路 集 联 ，32B 块 的 大 小 

二 级 缓存 4 组 ,每 组 128 KB 的 8 路 集 联 ，128B 块 大 小 
ay x Tiii 8K 项 gshare Al 1K Jji, 4 路 BTB 


功能 单元 Aj ERR WIS ALU 中 断 + 一 个 乘法 /除法 中 断 ; 1 个 ALU 浮 点 运算 和 1 个 乘法 /除法 运算 


图 4-25 还 示 出 了 两 层 设计 中 层 的 温度 分 布 ， 其 中 顶层 明显 比 底层 热 并 有 一 个 
90 人 的 热点 。 与 散热 体 和 热 沉 相 接 的 底层 比 项 层 温度 低 。 尽 管 底层 的 功率 密度 比 顶 
层 高 ， 但 项 层 到 热 沉 的 热 阻 更 高 。 尽 管 硅 是 相对 较 好 的 热 导 体 ， 但 垂直 方向 的 热 传 
寻 受 到 了 金属 层 、 绑 定金 属 和 增加 了 的 距离 组 合 的 负面 影响 。 能 改善 从 顶层 到 热 沉 
的 垂下 热传导 的 热 通 孔 可 用 来 将 热点 的 温度 保持 在 给 定 的 热 阔 值 之 下 。 





a)2 层 3D 打 包 视 图 







Aux pc fe ! | 
: i 








c) 底层 温度 曲线 
图 4-25 通过 3D 布局 规划 器 得 到 的 具有 基于 3D CBL 表示 的 3D 块 的 两 层 打 包 
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图 4-26 示 出 了 2D 和 3D 结构 的 块 工艺 的 温度 比较 。x 轴 表 示 在 3 ~6GHz 频率 
范围 内 不 同 硅 层 数 的 不 同 配置 。y 轴 以 的 温度 表示 3D 和 2D 块 工艺 及 热 通 筷 插 入 
的 结果 。 环 境 温度 设 为 27C 。 如 在 本 章 参 考 文献 [12] 中 示 出 的 ， 多 层 3D 块 可 比 
单 层 块 节省 10% ~30% 的 功 耗 。 但 温度 严重 依赖 版 图 布局 。 为 减轻 热点 ， 有 必要 经 
常 性 地 让 潜在 的 热点 与 其 他 潜在 热点 远离 。 即 使 单 层 块 在 这 方面 看 起 来 比 多 层 块 更 
有 优势 , 但 3D 打包 引擎 通过 其 根据 块 的 热 分 布 对 块 做 的 智能 层 选 择 殉 服 了 该 问 
题 。 因 此 ， 我 们 可 以 看 到 对 于 两 层 或 三 层 的 设计 ， 温度 可 以 因 多 层 块 功 耗 的 减 小 和 
可 替换 选择 而 降低 。 


300 pee FEEI DEEP me NE BS SR Se Cal SHS 








i M ! TET 
N I| | 
100 地 LII 
. M il | 


作为 一 种 新 的 集成 电路 (IC) 设计 技术 ,三 维 (3D) 集成 的 物理 设计 受到 了 
在 多 层 希 件 层 结构 上 出 现 的 设计 方法 和 优化 方 回 的 挑战 。 这 是 在 那些 深 亚 微米 工艺 
中 出 现 的 设计 复杂 度 问 题 之 外 的 问题 。 在 本 章 中 ， 我 们 介绍 了 含 2D 块 和 3D 块 的 
3D 布局 规划 的 算法 。 

根据 块 表示 法 ，3D 布局 规划 问题 可 分 为 两 类 : 含 2D 块 的 3D 布局 规划 和 含 3D 
块 的 3D 布局 规划 。 如 4. 2 节 中 说 明 的 ， 这 两 类 3D 布局 规划 需要 不 同 的 表示 法 和 
优化 技术 。 因 此 4.3 节 和 4.4 节 中 ， 我 们 分 别 介绍 了 2D 和 3D 块 的 表示 法 。 

由 于 含 2D 块 的 3D 布局 规划 可 表示 为 2D 表示 法 矩阵 ，2D 布局 规划 算法 通过 
在 优化 技术 中 引入 新 操作 扩展 到 多 层 设 计 处 理 。 在 4.3 节 中 ， 简 要 介绍 了 几 种 基本 
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的 2D 表示 法 ， 这 些 是 3D 布局 规划 优化 的 基本 技术 。 不 同 表示 法 的 分 析 展 示 了 这 
些 表示 法 的 来 龙 去 脉 。 在 4.4 节 中 ， 介绍 了 用 来 表示 含 3D 块 的 3D 打包 的 几 种 典 
型 的 表示 法 : 3D 切片 树 、3D CBL、 三 元 序列 和 五 元 序列 。 在 4.5 节 中 ， 在 基于 表 
示 法 的 多 种 随机 优化 的 简要 介绍 之 外 ， 还 介绍 了 解析 的 方法 。 我 们 介绍 了 含 2D/3D 
块 的 3D 布局 规划 的 经 典 优 化 方法 一 一 模拟 退火 法 。 通 常用 于 标准 单元 布局 的 力 定 
向 方法 的 热 敏 感 解析 方法 也 在 本 节 中 了 予以 介绍 。 


附录 tT 3D 元 件 设计 


最 近 的 研究 为 包括 3D 缓存 器 777. 3D 寄存 器 堆 ”、3D 算术 单元 ”和 3D 
指令 调度 器 ' 在 内 的 多 种 架构 提供 了 块 模型 。 为 构建 多 层 块 以 在 机 构 设 计 中 减 小 
块 内 互 连 延 迟 和 功 耗 ， 有 两 种 主要 的 在 多 硅 层 上 设计 块 的 策略 : Nep (BF) 
和 端口 分 块 (PP)。 块 折 徐 意味 着 在 或 Y 方 向 上 的 块 折 闪 可 以 潜在 地 减少 该 方 
回 的 线 网 长 度 。 闪 口 分 块 将 结构 的 可 访问 端口 置 于 不 同 的 层 。 直 觉 上 用 于 到 单个 
块 (如 多 端口 缓存 ) 的 重复 访问 所 需要 附加 的 硬件 可 以 分 布 在 不 同 层 ， 这 样 可 
以 极 大 地 减 小 在 每 层 中 的 互 连 长 度 。 例 如 ， 将 这 些 策略 用 于 类 似 缓存 的 块 已 经 简 
要 介绍 了 。 对 于 所 有 其 他 的 元 件 ， 如 问题 队列 、 寄 存 器 堆 ， 也 可 以 进行 类 似 的 
分 析 。 

缓存 通常 在 含 固定 结构 的 架构 中 出 现 。 它 们 由 大 量 的 标签 和 数据 矩阵 组 成 。 
图 4-27 示 出 了 一 个 三 端 结构 的 单元 。 每 个 端口 含 位 、 位 线 、 字 线 和 每 位 2 个 晶 
管 。 组 成 存储 单元 的 4 个 晶体 管 比分 配给 端口 的 空间 小 得 多 。 线 间距 一 般 是 特征 尺 
寸 的 5 倍 。 对 于 每 个 额外 的 端口 ， 在 和 和 了 方向 上 
的 线 网 长 度 的 增长 速度 是 线 间距 增长 速度 的 两 倍 。 
另 一 方面 ， 由 4 个 晶体 管 组 成 的 存储 部 分 的 高 度 是 
线 间距 的 2 倍 ， 宽 度 与 线 间 距 相 等 。 因 此 ， 一 个 元 
件 的 端口 越 多 ， 就 有 越 多 的 硅 心 片面 积 被 端口 占 
据 。 一 个 三 端口 结构 的 端口 面积 和 单元 面积 的 比率 
Z43J 18: 1, 

图 4-28a 示 出 了 多 个 通过 地 址 和 数据 总 线 相 连 
的 多 个 缓存 标签 和 数据 阵列 的 高 层次 视图 。 每 个 垂 
直 和 水 平 的 线 代 表 32 位 总 线 。 假 定 该 缓存 上 有 两 个 端口 ， 同 时 线路 成 对 。 缓 存 的 
元 件 可 以 简单 地 打开 为 子 矩阵 。CACTI2 .2 可 用 于 探索 不 同 子 部 分 的 设计 空间 并 找 
到 性 能 、 功 耗 和 面积 的 最 优点 。 

1. ræ (BF) 

KHERA ARIETE: S~RBAA BE. TERA, 缓存 子 和 矩阵 中 的 字 线 分 
开 并 置 于 不 同 芯 片 层 上 。 字 线 驱动 器 也 复制 了 。 字 线 折 丢 的 收获 来 自 缩短 了 的 从 预 





4-27 = Sig SRAM 单元 
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图 4-28 ”可 替代 缓存 的 三 维 块 : a) 2D 两 端口 缓存 : 图 中 线 表 示 两 个 端口 的 
输入 /输出 线 网 ; b) FRB: 仅 y 方 向 减 小 了 。 输 入 /输出 端口 翻 倍 ; 
c) 端口 分 块 : 端口 置 于 两 层 。x 和 Yy 方向 长 度 均 减 小 了 


解码 器 到 解码 器 以 及 从 输出 驱动 带 到 缓存 边缘 的 布线 距离 。 同 理 , 位 线 折 芋 将 位 
线 置 于 不 同 层 但 需要 复制 传输 门 。 调 查 显 示 ， 字 线 折 巷 在 大 多 数 情况 下 比 理想 位 
线 折 闪 可 实现 更 好 的 访问 时 间 和 功 耗 。 这 里 ， 图 4-29 示 出 了 使 用 字 线 折 生 的 
结果 。 

= PP? m pp3 O PP4 O BF2w BF3@BF4 










0.6 


2D 块 的 归 一 化 


0.2 


IQ BPred [缓存 D 缓 存 RF LSQ Mapper 
a) 面积 的 改善 
gmpp? mpp3 OPP4 OBF2 BF3 @BF4 








BPred [缓存 D f$ RF LSQ Mapper 
b) 时 序 的 改善 
12 | pp? mpp3 OPP4 DBF2WBE3 BBF4 





A 

| 0.8 +e E Re | E 

TTT 

z 06 

3X o, 

^ 0.4 

ED 

IQ BPred [缓存 D 缓 存 RF LSQ Mapper 
c) 功 耗 的 改善 


4-29 多 层 F2B 设计 的 改善 (PP2 指 两 层 设 计 的 端口 分 块 ，BF2 RRR MRS) 
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2. 端口 分 块 

将 端口 分 块 并 置 于 不 同 芯片 有 一 个 显著 的 优点 ， 如 图 4-28c 所 示 。 在 两 层 设 
计 中 ， 可 将 两 个 端口 置 于 一 层 ， 一 个 端口 和 SRAM 单元 置 于 男 一 层 。 宽 度 和 高 度 
都 减 小 了 约 一 半 ， 面 积 减 小 为 1/4。 端 口 分 块 同时 实现 了 垂直 方向 和 水 平方 回 线 
网 长 度 缩短 。 这 减 小 了 总 线 网 长 度 和 总 电容 ， 并 转换 为 访问 时 间 的 缩短 和 功 耗 的 
降低 。 端 口 分 块 需要 通 孔 将 存储 器 单元 连接 到 在 其 他 层 上 的 端口 。 依 徘 工 艺 ， 通 
孔 的 直径 也 会 影响 尺寸 。 在 我 们 的 设计 中 ， 需 要 为 每 个 所 需 通 和 孔 设 置 0.7pm x 
0. 7um 的 空间 。 这 与 本 章 参 考 文献 [30] 中 用 来 获取 通 孔 电容 和 电阻 的 模型 
相同 。 

图 4-29 示 出 了 不 同 分 块 策略 对 不 同 元 件 的 影响 。 总 结 这 些 影响 ,我 们 可 以 
得 到 : 

1) 端口 分 块 对 持续 缩小 面积 比 所 有 结构 都 更 有 效 。 原 因 是 端口 分 块 同 时 缩小 
T x y Zr RE. 

2) 对 于 缓存 ， 端 口 分 块 在 层 数 增加 时 不 提供 功 耗 和 时 序 的 额外 改善 。 原 因 是 
这 些 缓存 没有 足够 多 的 端口 。 同 时 ， 唱 体 管 层 必 须 给 通 孔 提供 空间 。 另 外 ， 通 过 字 
线 折 二 ， 该 趋势 继续 并 随 层 数 的 增加 持续 改善 

3) 平均 来 看 ， 端口 折 春 比 块 折 蚕 可 节省 更 多 面积 。 块 折 乔 在 缩减 块 延迟 ， 特 
别 是 端口 较 少 的 块 的 延迟 上 更 有 效 。 端 口 分 块 在 减 小 功 耗 上 的 性 能 更 佳 。 

4) 尽管 多 层 块 延 迟 和 功 耗 相对 于 单 层 有 所 降低 ， 但 最 差 功 耗 密度 由 于 层 的 堆 
和 到 将 显著 增加 。 因 此 ， 单 个 块 的 功 耗 减 小 不 能 保证 热点 的 消除 。 热 效应 不 仅 依赖 每 
个 块 的 配置 ， 还 依赖 布局 的 物理 信息 。 

E 
现 工具 的 需要 。 选 择 合 适 的 实现 过 程 需要 考虑 线 网 流水 线 在 内 的 物理 信息 。 
个 元 件 的 最 优 的 3D 配置 不 一 定 会 导向 对 整个 系统 最 优 的 3D 实现 。 在 一 au 
况 下 ， 如 4 层 必 片 ， 如 果 元 件 选 为 4 层 块 ， 其 他 块 将 不 能 置 于 其 上 方 及 相 邻 位 
置 。 此 外 ， 对 所 有 其 他 高 度 互 连 的 块 来 说 ， 该 块 可 能 不 够 。 因 此 ， 块 间 线 网 迟 
沛 有 可 能 增加 并 生成 一 些 附 加 周期 。 另 一 方面 ， 如 果 为 该 元 件 选择 一 个 两 层 实 
现 ， 尽 管 块 内 延迟 不 是 最 优 ， 但 由 于 其 他 块 可 以 置 于 该 块 之 上 而 使 该 块 与 其 他 
块 因 垂直 互 连 更 短 而 紧密 连接 ， 最 终 使 块 间 延 迟 受 益 。 因 此 该 元 件 2 层 实 现 的 
打包 可 能 比 其 4 层 打包 表现 更 优 。 此 外 ， 为 有 助 于 热效应 ，3D 块 延 时 的 缩小 
可 提供 延 时 迟 清 以 允许 时 序 和 功 耗 的 折 中 。 但 该 优化 也 将 依赖 物理 打包 结果 提 
供 的 时 序 信息 。 

因此 ， 为 了 应 用 3D 块 ， 决 策 不 能 简单 地 仅 根 据 结构 方面 或 物理 设计 方面 做 
出 。 为 了 在 3D 微 结 构 和 物理 设计 之 间 实 现 协同 优化 ， WI ee 
化 过 程 中 选择 实现 方式 的 真实 的 3D 打包 引擎 。 
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第 S 章 热 敏 感 三 维 (3D) 布局 


Jason Cong Guojie Luo 

3D IC 技术 为 电路 设计 提供 了 另 一 维 的 自由 度 。 在 处 理 以 更 优 线 网 长 度 进行 的 
单元 的 器 件 层 指定 优化 之 外 ， 同 时 要 处 理 硅 通 孔 (TSV) 资源 和 热 问题 ， 这 对 布局 
工具 来 说 是 一 个 大 挑战 。 本 章 介绍 了 几 种 针对 这 些 问题 的 3D 全 局 布局 技术 ， 包括 
基于 分 块 的 技术 、 二 次 均匀 建 模 技 术 、 多 层 布局 技术 和 基于 转换 的 技术 。 也 简要 地 
介绍 了 3D IC 设计 的 合法 化 问题 和 详细 布局 问题 ， 并 且 通 过 实验 结果 说 明了 多 种 
3D 布局 技术 对 线 网 长 度 、TSV 数 和 温度 的 影响 ， 以 及 3D IC 工艺 对 线 网 长 度 和 中 
继 需 使 用 的 影响 。 


5.1 介绍 


布局 是 物理 设计 流程 中 重要 的 一 步 。 布 局 结果 的 质量 严重 影响 性 能 、 功 耗 、 温 
度 和 可 布线 度 。 而 3D IC 技术 给 其 中 的 热 问 题 带 来 了 更 多 的 挑战 : DERHAL 
层 有 源 器 件 使 功率 密度 激增 ; @ 相 比 于 硅 和 金属 来 说 ， 在 器 件 层 间 电介质 的 热 导 率 
很 低 。 例 如 SiO, 的 热 导 率 在 室温 (300K) 下 为 L4W/m* K^, KK BE 
(150W/m - K) 和 铜 (401W/m - K) 的 热 导 率 。 因 此 , 在 3D IC 设计 的 每 个 阶段 ， 
包括 布局 阶段 ， 都 要 考虑 热 问 题 。 所 以 ， 对 于 充分 应 用 3D IC 技术 ， 热 敏感 的 3D 
布局 工具 是 必要 的 。 读 者 可 参看 3.2 节 了 解 热 问题 的 详细 介绍 和 热 分 析 及 热 优 化 的 
方法 。 


5.1.1 问题 建 模 


MEB H=(V, E), FERRO K, BA aK R=[0,a] x[0,b], 其 
中 在 电路 H (MERRER) 中 VV 是 例 化 单元 集 (用 项 点 来 表示 ), 为 线 网 集 (用 超 
ARR), ÆI v eV 的 布局 (xi, Vi z) 满足 (xj, y») eR Hz ell, 2, =, Kl. 
3D 布局 问题 即 为 每 个 单元 v; e V 找到 一 个 布局 (x;，y;，z;)， 根 据 不 重 倒 布局 约 
束 、 性 能 约束 、 温 度 约 束 等 约束 使 加 权 的 总 线 网 长 度 的 目标 函数 最 小 化 。 在 本 章 中 
我 们 重点 关注 温度 约束 ， 而 性 能 约束 与 2D 设计 中 的 类 似 。 读 者 可 参考 本 章 文献 
[18, 35] 做 2D 布局 的 简单 了 解 和 学 习 。 

5.1.1.1. 线 网 长 度 目 标 函 数 

布局 解 的 质量 可 用 性 能 、 功 耗 和 可 布线 度 衡 量 ， 但 这 些 衡量 是 不 统一 的 。 为 了 
在 优化 过 程 中 给 这 些 方面 建 模 ， 加 权 总 线 网 长 度 成 为 被 广泛 接受 的 布局 质量 衡量 单 
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位 。 通 常 ， 目 标 函数 定义 为 
OBJ = V (1 +7,) - (WL(e) + oss, * TSV(e)) (5-1) 


目标 函数 依赖 布局 结果 | ( x;，y;，z;)} ， 并 且 其 为 所 有 线 网 长 度 Whe) RUE 
通 孔 (TSV) 数 TSV(e) 的 加 权 和 。 权 重 (1 +r.) 反映 了 线 网 e 的 临界 度 ， 其 通常 
与 性 能 优化 相关 。 未 加 权 线 网 长 度 通过 设 ry 为 0 得到。 通过 将 该 权重 涉及 热 阻 、 
电容 和 线 网 e 的 开关 行为 ， 就 能 够 对 热效应 建 模 ” 。 

线 网 长 度 WL(e) 通常 用 半 周 长 线 网 长 度 模型 估算 “” ， 即 


WL(e) = (max | x; | -minįx;j ) + (max{ y; | -miniy,) (5-2) 
MJE, TSV(e) 由 iz: v,eel BRR: 
TSV(e) = (max }z; | - min jz;} ) (5-3) 


系数 arvie TSV 的 权重 ; 其 将 TSV 建 模 为 一 定 长 度 的 线 网 。 例 如 ，0. 18pm 
SOI ( 硅 上 绝缘 体 ) TUR 7 就 电阻 的 角度 评价 一 个 3hm 厚 的 TSV 相当 于 8 ~20pm 
的 第 2 层 金属 线 。 因 此 在 8 ~20pm 间 的 系数 aysy 可 用 于 优化 此 种 情况 下 的 功 耗 或 
延迟 。 
5.1.1.2 KÆRAR 
不 重生 约束 的 终极 目标 可 以 表示 如 下 : 
| x. —%; | > (wo; +w,)/2 
或 ”对 于 所 有 z =z 的 单元 v, ,v; (5-4) 
ly; - y;| 2 (h; +h,)/2 
AP, (xi, %, z) 是 单元 i 的 布局 ; w, Ah; 分 别 是 其 宽度 和 高 度 。 单 元 7 与 此 相 
同 。 这 样 的 约束 直接 应 用 在 某 些 较 早 的 解析 布局 工具 上 ， 如 本 章 参考 文献 [5]. 
然而 ， 该 公式 导致 了 数量 为 0(n ) 二 选 一 约束 ， 其 中 是 单元 的 总 数 。 这 样 
数量 的 约束 对 现代 大 规模 设计 不 实用 。 | 
AJ Y S BOISE NOMEA GER ZR, WARA d [EHI YS RTT EL BIS AY 
步 又 将 布局 分 为 粗 合 法 化 和 精细 合法 化 。 通 过 使 用 如 下 的 区 域 密度 约束 ， 粗 合法 化 
松弛 了 成 对 的 不 重生 约束 。 
Y HAA... AI) s 面积 ( 桶 ,, ,;) (对 于 所 有 m,n,k) (5-5) 


对 于 所 有 
zi = 上 的 单元 ; 


对 于 具有 个 器 件 层 的 3D E 
路 ， 每 层 分 为 L x M 个 桶 。 如 果 每 "5 
个 桶 , ,满足 等 式 (5-5) ， 粗 合法 化 
即 完成 。 一 个 器 件 层 密度 约束 的 例 
子 见 图 5-1。 

在 粗 合法 化 之 后 ， 精 细 合 法 化 
用 来 满足 成 对 的 不 重 替 约束 ， 使 用 图 5-1 a) 满足 密度 约束 ; b) 不 满足 密度 约束 





$53 热 敏 感 三 维 (3D) 布局 85 





了 多 种 分 立方 法 和 试探 法 ， 这 些 方法 将 在 5.6 节 中 说 明 。 

5.1.1.3 热 敏感 

在 现 有 文献 中 ， 温 度 问 题 没 有 直接 建 模 为 约束 。 人 代替 的 是 ， 热 惩罚 加 入 线 网 长 
度 目 标 函 数 以 控制 温度 。 该 惩罚 既 可 以 是 转换 为 热 敏 感 线 网 权重 的 加 权 温 度 惩 
罚 1， 也 可 以 是 热 分 布 成 本 惩罚 ” ， 再 或 者 是 在 合法 化 过 程 中 从 单元 位 置 到 热 沉 
的 距离 "…”. 。 

在 本 章 中 ， 我 们 将 在 5. 2 节 介 绍 热 敏 感 线 网 权重 ， 在 5.3. 3 节 将 介绍 热 分 布 成 
APR, FES. 6.2.2 节 将 介绍 热 敏 感 合法 化 。 


5.1.2 现 有 三 维 布局 技术 总 览 


当前 最 先进 的 2D 布局 算法 分 为 打 平 布局 搁 术 、 顶 到 底 基 于 分 块 的 技术 和 多 层 
布局 技术 。 这 些 技术 展示 出 了 现代 VLSI 电路 不 断 增 长 的 复杂 度 可 按 比 例 的 缩小 
性 。 为 了 处 理 按 比例 缩小 问题 ， 这 些 技 术 将 布局 问题 分 解 为 3 个 阶段 : 全 局 布局 、 
合法 化 和 详细 布局 。 给 定 初始 解 ， 全 局 布局 改进 解 直 到 在 每 个 预定 义 区 域 中 的 单元 
面积 不 大 于 该 区 域 容 积 。 这 些 区 域 被 基于 分 块 的 技术 和 多 层 布局 技术 以 自 顶 向 下 的 
方式 从 最 粗糙 的 层次 处 理 到 最 精细 的 层次 ， 并 在 最 精细 层次 以 打 平 的 形式 用 打 平 布 
局 技术 处 理 。 在 全 局 布局 后 ， 合 法 化 执行 以 在 不 重奏 的 情况 下 确定 所 有 单元 的 特定 
位 置 ， 并 由 详细 布局 执行 本 地 精细 化 以 得 到 最 终 解 。 

随 着 现代 2D 布局 技术 的 进步 ， 也 有 许多 3D 布局 技术 被 开发 出 来 以 针对 3D 技 
术 的 问题 。 大 多 数 现 有 技术 ， 特 别 是 在 全 局 布局 阶段 ， 都 可 视 为 2D 布局 技术 的 扩 
展 。 我 们 将 3D 布局 技术 分 为 以 下 几 类 

1) 基于 分 块 的 技术 “在 传统 基于 分 块 的 过 程 中 一 些 合 适 的 阶段 将 分 块 平 
面 平行 插入 器 件 层 间 。 分 块 的 成 本 通过 估计 的 线 网 长 度 和 TSV 数目 的 加 权 来 衡量 ， 
其 中 线 网 还 通过 热 敏 感 或 拥塞 敏感 系数 进一步 加 权 来 考虑 温度 和 可 布线 度 。 

2) 打 平 布局 技术 大 多 数 是 二 次 布局 及 其 衍生 技术 ， 包 括 力 定向 技术 、 单 元 平 
移 技 术 和 二 次 均匀 建 模 技术 。 未 约束 的 二 次 布局 会 引入 大 量 的 单元 重 钱 ， 因 此 开发 
了 不 同 的 衍生 技术 来 消除 重 羡 。 二 次 方程 的 最 小 化 将 转化 为 解决 线性 系统 的 问题 。 
力 定向 技术 '“ 在 线性 系统 右手 侧 增加 了 一 个 向 量 ， 称 为 斥 力 向 量 。 这 些 斥 力 向 
量 在 电 全 分布 与 单元 面积 分 布 相同 时 与 电场 力 等 效 。 力 在 每 次 迭代 后 刷新 直到 在 每 
个 预 指 定 区 域 的 单元 面积 不 大 于 该 区 域 容积 。 单 元 平移 技术 '” 与 力 定向 技术 的 相 
似 之 处 在 于 它们 也 在 线性 系统 的 右手 侧 增加 了 一 个 向 量 。 该 向 量 是 从 虚拟 引 脚 发 出 
的 线 网 力 的 结果 ， 其 中 虚拟 引 脚 位 置 是 根据 在 单元 平移 后 所 需 单元 位 置 添 加 的 。 二 
次 均匀 建 模 技术 “在 目标 函数 上 增加 了 一 个 密度 惩罚 函数 ， 并 且 在 每 次 迄 代 中 通 
过 另 一 个 二 次 函数 本 地 拟 合 了 密度 惩罚 函数 ， 因 此 整个 全 局 布局 可 通过 最 小 化 一 系 
列 二 次 晒 数 求解 。 

3) 多 层 技术 ”通过 初始 网 表 构 建物 理 结构 ， 并 解决 一 系列 从 最 粗糙 层次 到 最 
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精细 层次 的 布局 问题 。 

4) 作为 这 些 技 术 的 补充 ， 本 章 参考 文献 [19] 中 提出 的 3D 布局 方法 利用 了 
现存 的 2D 布局 结果 并 通过 转化 构建 了 3D 布局 。 

在 本 章 的 后 续 部 分 ， 我 们 将 详细 讨论 这 些 问 题 ， 还 将 特别 介绍 针对 3D 布局 的 
合法 化 和 细致 布局 技术 。 


5.2 基于 分 块 的 技术 


基于 分 块 的 技术 汪汪 可 以 有 效 地 减 小 TSV 数目 及 其 固有 的 最 小 切割 目标 。 
这 是 建设 性 的 ， 即 使 在 缺少 L/O 压 焊 点 连接 信息 时 也 能 够 得 到 高 质量 布局 结 采 的 
方法 。 

基于 分 块 的 布局 技术 使 用 应 用 于 3D 电路 的 递归 双 回 分 块 〈 对 分 ) 方法 。 在 每 
一 步 对 分 时 , 块 (V,，R。) 由 在 网 表 中 且 处 于 布局 区 域 R 的 特定 物理 块 R 中 的 单 
元 的 子 集 组 成 V, CV。 当 块 对 分 时 ， 两 个 新 块 (V, R) A (V, R) 由 对 分 的 
V, = V, UV, 的 单元 表 和 对 分 的 物理 区 域 Re =R UR, 得 到 ， 其 中 切割 面 通常 与 X、Y 
或 Z Hae. cde Vo 的 平衡 对 分 为 Vi U V, 通常 是 最 优 的 ， 因 为 其 满足 了 面积 世 
平衡 标准 W, = Een ME (v), Hrpicl,2)JAmifE|W,-W,|sc(W, +W), c 
A, R AR, 的 面积 比率 与 V, Al V, 间 的 单元 面积 比率 相关 。 在 一 定数 量 的 对 分 
步骤 后 ,在 5.1.1.2 节 中 定义 的 区 域 密度 约束 由 于 对 分 过 程 的 特性 自动 满足 。 

基于 分 块 技术 的 布局 解 由 对 分 目标 因数 和 对 分 方 回 的 选择 决定 ， 如 下 所 述 。 

基于 最 小 切割 的 布局 的 中 心思 想 是 最 小 化 块 则 的 切割 面积 ， 从 而 使 具有 和 较 多 连 
接 关 系 的 单元 倾向 于 处 在 同一 分 块 中 并 相互 靠近 以 获得 更 短 的 线 网 长 度 。 

MF (Vo, Ro) 对 分 为 《Vi ,Ri) U(V,,R,) 的 情况 ， 如 果 一 个 线 网 同时 含 R, 
ALR, 中 的 单元 ， 那 么 它 将 被 切割 。 总 的 加 权 切 制 量 为 gm (1 +7。)。 切 割 过 程 中 
的 目标 是 最 小 化 总 的 加 权 切 割 量 ， 其 可 使 用 采用 多 层 hMetis ”方式 的 Fiduccia- 
Mattheyses ( FM) RREA OR HR 

终端 传播 ”是 一 种 考虑 块 的 外 部 连接 的 成 功 技术 。 在 块 外 的 一 个 单元 建 模 为 
该 块 边 缘 上 的 固定 终端 ， 其 位 置 通过 线 网 中 心 的 最 近 位 置 计 算得 到 。 

然而 ， 切 割 量 了 图 数 不 直 接 反 映 在 5. 1. 1.1 节 中 定义 的 3D 布局 问题 的 线 网 长 度 
Apes, SPO RAGE arsv 的 权重 。 当 切割 面 与 x 轴 或 y 轴 垂 直 时 ， 切 割 量 
的 最 小 化 只 对 2D ARIE Dp +r) WL(e) 有 潜在 影响 ; 当 切 割 面 与 z si A 
时 ,切割 量 等 于 ym (1 +re)arsy7TSY(e)。 折 中 这 两 个 目标 的 唯一 方法 是 控制 对 
分 方 回 的 顺序 。 文 献 [21] 中 的 研究 注意 到 总 线 网 长 度 和 TSV 数 的 折 中 可 以 通过 
改变 何 时 把 电路 分 块 到 融 件 层 的 顺序 实现 。 直 观 地 ， 在 z 轴 尺 度 分 块 首先 将 最 小 化 
TSV A, MÆ x 轴 和 y 轴 斥 度 分 块 将 最 小 化 总 线 网 长 度 。 本 章 参考 文献 [21, 
27] 使 用 权重 系数 arsy 来 决定 对 分 方向 。 假 定 物理 区 域 R， 每 次 对 分 的 切割 方向 选 
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为 与 区 域 中 的 最 大 的 宽度 边 |xw-xi |， 高 度 |yv-yi|， 或 加 权 深 度 arsr |zy-2, | 垂直 。 
由 此 ， 以 在 成 本 较 低 的 正 交 方向 上 人 允许 更 高 连接 度 的 成 本 ， 所 述 最 小 切割 目标 最 小 
化 了 成 本 最 高 方向 上 的 连接 数目 。 

st (5-6) 示 出 了 附加 到 未 加 权 线 网 长 度 目标 函数 上 的 热 敏 感 项 ” 。 我 们 将 
RE AN TK PRAT VA BAMA A PYAR EARS o 
Y, (WL(e) + Ary * TSV(e) ) + drew 之 了 (5-6) 


AP, T, 是 单元 cell; 的 温度 ， 同 时 在 分 块 过 程 中 考虑 了 温度 敏感 度 Oye 之 , VT; DÀ 
而 ， 直 接 在 目标 也 数 中 使 用 温度 项 会 导致 对 每 个 单元 移动 的 重 计算 。 因 此 ， 必 须 对 
此 简化 以 提高 效率 。 从 单元 cell v, 到 周围 环境 的 总 热 阻 可 计算 得 到 ; 
= (5-7) 
式 中 ， By cs ahis erts Beans Timan Rop ;是 通过 仅 考 虑 该 方向 热传导 情况 
下 的 有 限 元 (差分) 法 (FDM，3.2.2.1 节 ) 分 析 得 到 的 近似 热 阻 。 例 如 ，R,; VE 
为 从 单元 位 置 (x;，y;，z;) 到 3D 芯片 左 侧 边 缘 (x =0) 的 热 阻 计算 ， 单 元 纵 切 
面积 等 于 单元 宽度 与 单元 厚度 的 乘积 。 
于 是 实际 使 用 的 目标 为 
> (WL(e) + arsy * TSV(e)) + argup > AT; 
ec E wieV (5-8) 
= » (WL(e) + apy * TSV(e)) + arcup = IP. 
HP, AT, dv, 的 温度 分 布 并 且 是 了 的 主要 部 分 ; R EM v, 到 周围 环境 的 热 阻 ; P, 
是 vi 的 功率 分 布 。 为 了 实现 热 敏 感度 ， 需 对 P, 和 R 进行 优化 。 
与 线 网 e 相关 的 动态 功 耗 为 
P, =0. 5a, fV, ( C y, WL(e) + C, ss TSV(e) + Ceo - (5-9) 
AY, a, 是 活动 系数 ; f 是 始终 频率 ; Yo 是 供电 电压 ; Cy Je Rr AE RU HE; 
Cnorsy 是 每 个 TSYV 的 电容 ; C,。mm 是 每 个 输入 引 脚 的 电容 ; n mt E ZR o] e 驱动 的 单 
元 输入 引 脚 数目 。 因 为 单元 的 内 部 电阻 通常 大 于 线 网 电阻 ”] ， 功 耗 已 在 驱动 单元 
i 消耗 并 成 为 P; 的 组 成 部 分 。 这 些 功 耗 组 分 的 总 和 即 为 单元 w 的 总 功 耗 : 
P= Po- XY Omron mt + TSV(a) 4 Cp) 


由 vj; 驱动 的 Fe Sk ain " 
线 网 e 线 网 e 


(5-10) 
如 采 略 去 在 优化 过 程 中 为 常数 的 C, pin n7" 并 用 C vans ERIS Cus, Hp 
Ory rete 5.1.1.1 节 中 定义 的 ,那么 式 (5-8) 可 表示 为 


(WL(e) + arsy * TSV(e)) + Oreup >, R;P, 
eek vieV 
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= J (WL(e) + arsy * TSV(e)) + amu Y, R; 
ecE ice 


0. 5a, fV», C yu (WL(e) + ass; * TSV(e)) 
由 v; 驱 动 的 线 网 e 


- b (WL(e) + ag, * TSV(e)) + Gus X 
— 2 eek 


zx R; * 0. Sa, Von mt WL(e) + QTSY * TSV(e) ) 


5; 驱动 线 网 e 
= (i Y, R;-0.5a,fV,,C, sll We) + ass, * TSV(e)) 
— vill fi e 
(5-11) 


5jxX (5-1) 中 定义 的 总 体 加 权 线 网 长 度 相 比较 ， 这 些 热 敏 感 线 网 权重 可 定义 
实现 如 下 


T, = Oremp x. R; - 0. Sa f Vip Cones (5-12) 
vi 驱动 线 网 e 

热 敏 感 线 网 权重 7, 在 分 块 过 程 中 不 是 常数 。 相 反 ， 热 阻 R; 由 单元 v, 与 芯片 边 
绿 的 距离 决定 。 本 章 参 考 文献 [27] 中 的 简单 计算 可 通过 以 下 假定 实现 。 即 假定 
热流 从 单元 位 置 沿 所 有 3 个 方向 直线 流向 芯片 边缘 ， 同 时 整体 热 阻 由 这 些 方向 各 自 
分 别 的 热 阻 计算 得 到 。 这 些 热 阻 在 分 块 过 程 中 求 值 以 计算 将 一 个 单元 从 一 块 移动 到 

万 一 块 的 增益 。 
作为 热 敏感 线 网 加 权 目 标 函 数 的 附带 结果 ， 温 度 也 通过 将 单元 拉 到 热 沉 的 伪 线 

网 得 到 优化 ”| 。 


5.3 二 次 均匀 建 模 技术 


与 离散 基于 分 块 的 技术 不 同 ， 二 次 基于 布局 的 技术 是 连续 的 。 其 中 心思 想 是 通 
过 较 能 的 约束 来 松弛 器 件 层 的 单元 ze 11，…，K} 的 指定 ,其 中 ze[1, K]. 3D 
布局 问题 通过 最 小 化 二 次 成 本 函数 或 找到 被 推导 出 的 线性 系统 的 解 来 求解 。 区 域 密 
度 约束 的 处 理 方式 有 两 种 : 一 是 通过 在 线性 系统 上 附加 一 个 力 向 量 ( 力 定向 技 
R “… 和 单元 平移 技术 '” ) ; 二 是 在 二 次 成 本 函数 中 加 入 二 次 惩罚 (二 次 均匀 建 
模 技术 ” ) 。3D 全 局 布局 通过 最 小 化 一 系列 二 次 成 本 函数 求解 。 在 本 节 中 ， 我 们 
将 讨论 二 次 均匀 建 模 技术 。 

二 次 的 布局 流程 如 图 5-2 所 示 。 该 流程 分 为 全 局 布局 和 详细 布局 阶段 ， 其 中 全 
局 布局 通过 二 次 均匀 建 模 技术 求解 ， 而 详细 布局 通过 简单 的 分 层 2D 布局 或 其 他 在 
5. 6 廊 中 将 讨论 的 高 级 合法 化 和 详细 布局 技术 求解 。 

统一 的 二 次 成 本 函数 定义 为 

OBJ* =0OBJ+B x DIST +y x TDIST (5-13) 
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合法 化 并 详细 布局 最 终 解 


图 5-2 二 次 布局 流程 图 


式 中 ，0BJ 是 线 网 长 度 目标 在 5. 1. 1. 1 节 中 的 定义 ; DIST 是 单元 排 布 成 本 ; B 是 单 
元 排 布 成 本 权重 ; TDIST 是 热 分 布 成 本 ; y 是 热 分 布 成 本 权重 。 此 外 ， 所 有 这 些 函 
数 OBJ, DIST 和 TDIST 均 在 式 (5-14). 中 表示 为 二 次 形式 ， 并 将 在 后 续 章 节 详 解 。 


n 


OBJ = 2 | $, qx jX;X; + p... T À, | 2, dy jYiX; + Pd] 
= j= 


iSi j i= 


" n 
T 2, ( >, qa2i2; 十 Ps) TE 
i= l 


jz 


DIST = Y (al +b, ;Xi;) + Y Ca, tb) + [3 (a, ;z; + biz) € C 
i= i= T 
TDIST ~ Y (aix) + x) + Y, (iy! + Dy) + Y, (az Mu) + CO 
i= TY 全 
(5-14) 
5.3.1 线 网 长 度 目标 函 数 


为 了 构建 二 次 线 网 长 度 函 数 来 估计 在 5.1.1.1 节 中 定义 的 线 网 长 度 目 标 ， 多 引 
脚 线 网 将 星 形 模型 或 集团 模型 分 解 为 两 引 脚 线 网 。 在 结果 图 表 中 ， 二 次 线 网 长 度 定 
义 为 

OBJ = x CL tr dt Cy Un - x)? BE DE -y;)^) + ArsyS, (2; -z)^) 

(5-15) 

式 中 ，(1 +r。) 是 线 网 权重 ; arswy 是 在 S. 1.1.1 节 中 定义 的 TSV 系数 ; 线 网 e 是 分 
解 得 到 的 连接 v; WY (x. y. oz) 点 和 vw BU (xa ¥,, oz) 点 的 两 引 脚 线 网 ， 系 数 
Se、scoy、3e 能 线性 化 二 次 线 网 长 度 以 估计 在 公式 (5-2) 和 (5-3) 中 定义 的 HPWL 
线 网 长 度 和 TSV 数目 … 。 

很 明显 这 种 二 次 函数 OBJ 能 写成 矩阵 形式 : 
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OBJ = 2, | 2, q.,jXiX; 十 p... - 2; | 2. das F py + 
i- i- j- 


Y (Xe +P, aht (5-16) 


式 中 ， Xi. Yi. 4; 是 问题 变量 ; 系数 qx ij * Pais qy ijn Py,i > dzi、\ Pai FU r 可 直接 从 公 
X (5-15) HRI, RÉ Poin Pris Pai Mr SERP O 引 脚 和 固定 单元 的 位 置 
fH Xo 


5.3.2 单元 排 布 成 本 函数 


在 2D 布局 中 使 用 离散 余弦 变换 来 求 单元 排 布 并 帮助 展开 单元 的 初始 思想 来 源 
于 本 草 参 考 文献 [42 ] 。 该 思想 扩展 并 应 用 到 了 3D 布局 中 。 
与 在 5.1.1.2 中 和 定义 的 桶 密度 相似 ， 另 外 一 种 用 于 含 连 续 变 量 (n) 的 松弛 问 
题 的 桶 密度 定义 为 
> 交集 ( 桶 , , ,, 单 元 让 


d is 对 于 所 有 单元 i 5-17 
nnd ACHR...) et) 


假定 一 个 具有 天 个 器 件 层 的 3D 电路 ， 其 芯片 宽度 为 W, BEX H, PSs 
XILO, W] x[0,H] x[0,K] 分 为 MxNxE 个 桶 ， 其 中 在 (x, y,, z) 的 单元 
cell, 映射 到 区 域 [ x; —w;/2,x; *w;/2] x[yi -—n,/2,y; +n,/2] x[z， z, +1]. 

Soan) =DCT(\d,,,,.}) 的 3D DCT 转换 定义 为 


feas = = Ja C(p)C(q)C(v) > x Ya. scos 2m + Den) 


cos( 22 + DT) cos( (21+ Dom) (5-18) 
AF, m, n, 1 是 空间 区 域 的 坐标 , p、g、v 是 频 域 的 坐标 。 系 数 为 C(v) = 
1/42 t=0 
(1 xn. 
单元 分 布 成 本 定义 为 


DIST = ab (5-19) 


P.q,t [o 


AH, u, =1/(ptq+t+1) 被 试探 性 地 设置 。 
注意 到 式 (5-19) 不 是 与 布局 变量 (x, yz) 相关 的 二 次 函数 。 为 了 构建 
二 次 形式 ， 进 行 了 如 下 近似 : 
DIST = > (api + b, ;%;) T b (a, y, * b, iyi) T Y (à, 2; + b, izi) 
- | | (5-20) 
里 然 系数 a.i. bris às. bui. aL. 6, ;依赖 中 间 布 局 结果 ， 他 们 仍 假定 为 该 二 
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UK PR BLA FF BX —Á— Án 由 于 变量 在 该 近似 过 程 中 可 以 较 


好 地 消去 ， 系 数 可 依次 算出 。 为 了 计算 a,;、b,;， 所 有 除 %; 以 外 的 变量 均 固 定 ， 由 
此 成 本 函数 变 为 x; 的 二 次 函数 : 
DIST(x,) =a, jx; +b, ix, * C';, (5-21) 


3 个 系数 a,,, b, AC’, .由 3 个 成 本 函数 DIST (x;) , DIST( x, +6) 和 DIST 
(x6) 算出 。 通 过 计算 ， 我 们 可 以 看 到 满足 二 次 近似 的 一 阶 和 二 阶 导 数 导 致 该 二 次 
函数 的 一 阶 和 二 阶 导 数 分 别 局 部 近似 了 区 域 分 布 成 本 函数 DIST. 的 一 阶 和 二 阶 导数 。 
DIST(x, +8) - DIST(x, -6)  aDIST(x,) 

28 ^—— — &; 
DIST( x, +8) -a *DIST(x,-8) à DT (3-22) 

ZE DIST 函数 的 计算 避免 了 通过 预计 算 的 3D DCT 2548". Hest (5-20) 
中 计算 矩阵 系数 的 过 程 中 以 O(n) 的 运行 时 间 消 耗 了 0(MNYL) 的 空间 。 


8.3.3 热 分 布 成 本 函数 


热 成 本 的 处 理 类 似 于 单元 分 布 成 本 ， 通 过 将 单元 密度 id, | 替换 为 热 密度 
Hs sul o 热 密度 定义 为 


26, ;X; + b. ; = 


2a, ; = 


L5 E uda, (5-23) 
AF, T, Jet m, n Raper, T. “年 整个 必 片 的 平均 温度 。 

作为 单元 分 布 的 成 本 ， 热 分 布 通 过 3D DCT 转换 ， 分 布 成 本 函数 通过 二 次 形式 
近似 。 

TESI; f PR 2C TDIST 的 二 次 近似 过 程 中 ， 除 了 和 矩阵 系数 的 计算 ， 热 密度 
(mni) 的 计算 也 消耗 了 大 量 运 行 时 间 ， 原 因 是 准确 地 计算 需要 热 分 析 。 为 了 从 
DIST(x,), DIST(x, -6) 和 DIST(x; +8) 的 计算 过 程 中 的 热 分 析 过 程 节省 时 间 ， 在 
计算 新 nnil 时 做 了 了 近似。 本章 参考 文献 [41] 中 的 工作 使 用 了 两 种 近似 方法 ， 
可 能 都 缺乏 准确 度 但 速度 快 ， 可 集成 到 分 布 成 本 计算 中 。 

第 一 种 近似 利用 了 单元 的 热 分 布 。 令 Pi (i) RT (i) 作 为 桶 m(i)n(i)1(i) 的 
功率 和 平均 温度 ， €——— 


Tan xa) (5-24) 


P, a7 ^ NE. 
UDMA m (i) nG) LG) BSA mCG)nG) LG) HE, AR ASE EA 
Pali. -B* Ta 
LDau)cfhu)-B*T. (5-25) 
式 中 ,B=1())X1(i) 是 单元 对 桶 温度 的 影响 。 
第 二 个 近似 以 与 更 新 功率 密度 相同 的 比率 更 新 了 桶 温度 : 


EDA、 设 计 和 微 体系 结构 





92 3D 集成 电路 设计 





P' unb) 
Pua (i) 





CE EIL fu) (5-26) 


5.4 多 层 布 局 技术 


多 层 试探 法 “已 证 明 在 大 规模 设计 中 有 效 。 多 层 试探 法 在 分 块 问题 中 的 应 
用 ”也 显示 了 其 可 以 改善 解 的 质量 ; 这 也 涉及 5.2 节 中 讨论 的 基于 分 块 的 技术 。 
此 外 ， 二 次 基于 布局 问题 的 求解 右 通 常 使 用 多 格 点 方法 ， 此 方法 是 多 层 试 探 法 的 起 
在 本 节 中 ， 我 们 将 介绍 直接 利用 多 层 试 探 法 的 解析 3D 布局 引擎 。 


5.4.1 三 维 布 局 流程 


多 层 解 析 3D 布局 流程 如 图 5-3 所 示 。 全 局 布局 从 随意 尝试 或 引入 给 定 初始 布 
局 开始 。 全 局 布局 将 解析 布局 引擎 (5.4.2 0) 合并 入 本 革 参 考 文献 [15] 中 使 
用 的 多 层 框架 。 全 局 布局 随后 用 2D 详细 布局 器 ”分 层 进行 以 获取 最 终 布 局 。 


初始 化 /更 新 惩罚 系数 





图 5-3 多 层 解析 3D 布局 流程 


5.4.2 解析 布局 引擎 


对 于 多 层 试 探 法 ， 解 析 布局 不 是 唯一 的 引擎 。 实 际 上 ， 任 何 与 $. 3 节 中 介绍 的 
技术 类 似 的 打 平 3D 布局 技术 均 可 使 用 。 在 本 节 中 ， 我 们 重点 关注 最 早 将 多 层 试探 
法 应 用 于 3D 布局 的 解析 引擎 。 

解析 布局 引擎 通过 将 非 重 奉 约 束 转换 为 密度 惩罚 来 解决 3D 全 局 布局 问题 。 
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最 小 化 > (WL(e) + arsy * TSV(e)) 
eck 65.07% 


条 件 为 Penalty( x , y ,z ) = 9 
线 网 长 度 WL(e) (5.4.2.2 47), TSV 数目 TSV(e) (5.4.2.3 45) 和 密度 惩罚 
函数 Penalty(x , y, z) (5.4.2.4 45) 将 在 以 下 章节 详细 介绍 。 
为 了 解 该 受 约束 问题 ， 惩 罚 方式 ”通常 使 用 : 
OBJ(x,y,z) = Y, (WL(e) + as, * TSV(e)) *u* P(x,y,z) (5-28) 


每 次 迭代 ， 逐 步 增 加 惩罚 系数 来 避免 密度 违反 ， 使 该 惩罚 目标 少数 最 小 化 。 
M uo 时 ， 若 惩罚 函数 非 负 ， 则 式 (5-28) 的 最 小 值 与 式 (5-27) 等 价 。 

5.4.2.1 离散 变量 的 松弛 化 

如 3. 1.1 节 中 提 到 的 ， 布 局 变量 由 三 元 变量 (x, y; zn) 表示 ， 其 中 z 是 离散 
变量 {11，2，…, Kjo z 的 范围 从 集合 01, 2, cc, K) 松弛 到 连续 区 间 [1, K]. 
在 松弛 化 后 ， 就 可 在 我 们 的 布局 引擎 中 使 用 非 线 性 解析 器 。 在 详细 布局 过 程 前 松弛 
解 映射 回 离散 值 。 

5.4.2.2 对 数 一 和 一 指数 线 网 长 度 

式 (5-2) 中 定义 的 半 周 长 线 网 模型 WL(e) 由 对 数 一 和 一 指数 函数 “的 可 微 
近似 蔡 代 ， 其 引入 本 章 参 考 文献 [36] 中 的 布局 。 

WL(e) = n(log Y exp(x;/9g) + log 》 exp( - x;/n) + 





log > exp( y;/9) + log Y. exp( — y;/9) ) (5-29) 


为 了 数字 稳定 性 ， 布 局 区 域 R 缩小 到 [0,1] x [0,1] 的 范围 内 ， 因 此 变量 
(xi, y,) 的 范围 也 在 0 ~1 之 间 ， 同 时 参数 m%x， 如 本 章 参 考 文献 [6] 中 设 为 0.01。 
5.4.2.3 TSV 数目 
在 式 (5-3) 中 定义 的 TSV 数目 TSV(e) 的 估计 值 也 被 对 数 一 和 一 指数 近似 
替换 : 
TSV(e) = n(log >》 exp(z,/9) + log 》 exp( = z;/n) ) (5-30) 


5.4.2.4 密度 惩罚 函数 
ae ERT PROT HE (x. y) 方向 和 z 方 向 上 去 除 重 和 到。 密度 惩罚 函数 的 最 小 
化 将 实现 理论 上 的 非 重 到 布局 。 
假定 每 个 单元 v, 具有 合法 器 件 层 指定 (例如 ，z, e 11, 2, =, K}), MAR 
可 为 这 天 NiF EEX KNARKA O HW, BERAD, (u, v) 可 以 表示 出 在 
第 上 器 件 层 覆盖 了 点 (u, v) 的 单元 数 。 可 以 定义 为 
D,(u,v) = 之 di (Cuv) (5-31) 


即 为 在 点 (u, v) 上 指定 到 该 器 件 层 的 单元 v, 的 密度 贡献 d.(w，v) 之 和 。 密 度 贡 
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id lu, v) 为 1 表示 六 在 该 区 域 中 , 0 表示 
v, 在 该 区 域外 。 图 5-4 的 例子 示 出 两 个 重 蚕 单 
元 的 密度 函数 。 

在 全 局 布局 过 程 中 ， 单 元 v 可 能 停留 在 
两 器 件 层 之 间 ， 将 导致 变量 zell, K] 无 法 
对 齐 到 两 个 器 件 层 的 任何 一 层 。 我 们 借用 本 章 
参考 文献 [31] 的 钟 形 函数 的 思想 来 定义 这 





图 5-4 ”密度 函数 示例 


种 情况 下 的 密度 峭 数 : 
Dis) = > n(k,z;)d;(u,v), 1 snes & (5-32) 
式 中 
] =2(2=ky* Iz -k| 172 
n(k,z) ={2(|z-k|-1)* 1⁄2<|z-k|<1 (5-33) 
0 其 他 


我 们 称 式 (5-33) 为 钟 形 密度 投射 图 数 ， 其 将 式 (5-31) 的 密度 函数 中 整 型 
的 层 指定 扩展 到 用 于 松弛 ? 很 明显 式 (5-32) 与 式 (5-31) 在 层 指定 dz] AK 
数 时 是 一 致 的 。 

对 于 所 述 扩 展 如 何在 一 个 4 层 的 3D 布局 上 实现 的 例子 在 图 5-5 中 给 出 。x 轴 
是 z 方 回 松 弛 化 的 层 指 定 ， 而 y 轴 表 示 将 投射 到 实际 器 件 层 中 的 面积 量 。4 种 曲线 ， 
短线 一 点 曲线 、 点 曲线 、 粗 线 曲 线 和 短线 曲线 分 别 代 表 对 应 1、2、3 、4 器 件 层 的 
PR (1, z), $(2, z), mQG, 2). 、7(4，z) 。 在 本 例 中 ， 单 元 现 置 于 第 2 层 和 第 
3 层 之 间 的 z=2.316 (x 轴 上 的 三 角 ) 处 。 钟 形 密度 投射 函数 将 其 80% 的 区 域 投 射 
到 第 2 层 (Cy 轴 上 的 偏 上 的 三 角 ) 和 20% 区 域 投射 到 第 3 层 的 (了 轴 上 的 偏 下 的 三 
f) 。 通 过 这 种 方式 ， 我 们 建立 了 从 松弛 3D 布局 到 离散 层 区 域 分 布 的 映射 关系 。 


1.0 





0.8 E 
0.6 
0.4 
0.2 


0.0 m= 


图 5-5 钟 形 密度 投影 示例 
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受 2D 布局 方法 “中 二 次 惩罚 项 的 启发 ， 我 们 定义 以 下 密度 惩罚 函数 来 测 
量 重 春 的 数量 : 
P(x,y,z) = X | | oen - 1)?dudv (5-34) 
定理 1 假定 单元 的 总 面积 等 于 布局 面积 (Mild area (v), 没有 空闲 空 
间 ) ， 每 个 满足 对 于 不 带 有 任何 非 整数 z 的 每 个 上 和 (u, v) 均 满 足 D,(u, v) =1 
的 合法 布局 (2%" ，7"，z ), 是 P(x, B ee 
y, z) 的 最 小 值 。 


2 GE Gn 
定理 1 的 证 明 很 简单 ， 故 省 略 。 Ez 

此 ， 最 小 化 P(x, y, z) HET Gu m Cm) 

局 的 必要 条 件 。 由 此 ， 存 在 不 能 构建 合法 布局 a 布局 b 


布局 的 最 小 值 。 图 5-6 示 出 的 例子 中 布局 b 
也 最 小 化 了 密度 惩罚 函数 ， 但 结果 不 合法 。 
为 了 避免 得 到 这 样 的 最 小 值 ， 我 们 引入 了 中 间 层 密度 畏 数 : 


图 5-6 具有 相同 密度 惩罚 的 布局 


E,(u,v) = Yn +0.5,2:)d,(u,v) 1<k<=K-1 (5-35) 
fI re] Je oF EET] PRA : 
Q(x,y,z) = I (E,(u,v) - 1)?dudv (5-36) 


与 密度 惩罚 函数 P(x，y，z) 类 似 ， 以 下 的 定理 2 也 为 真 。 

定理 2 ”假定 单元 总 面积 等 于 布局 面积 ， 每 个 合法 布局 是 0O(Y，7，z) 的 最 小 值 。 

将 密度 惩罚 函数 P(x, y, z) MC, y, z) 组合， 我 们 定义 了 以 下 的 密 
度 惩罚 函数 : 





Penalty(x,y,z) 2 P(x,y,z) *Q(x,y,z) (5.37) 
定理 1 假设 单元 总 面积 等 于 布局 面积 ， 那 么 每 个 合法 布局 (YY y, z^) 

是 Penalty( x, y, z) 的 最 小 值 ， 反 之 亦 然 。 
证 明 : 很 明显 ， 通 过 组 合 定理 1 和 定理 2 可 知 ， 每 个 合法 布局 是 Penalty( x , 
Y, 2) 的 最 小 值 。 我 们 应 该 证 明 每 个 Penalty(*，y，z) Bf (x^, y^, 
z^) 是 合法 布局 。 从 定理 1 和 定理 2 的 证 明 ， 我 们 知道 当 且 仅 当 每 个 正和 (u, v) 
HJ D, (u, v) =1 HE,(u, v) =1 ABS Penalty(x, y, z) 的 最 小 值 。 首 先 ， 如 


果 所 有 z“ 的 元 素 为 整数 ， 容 易 发 现 布局 合法 。 其 原因 是 所 有 单元 指定 到 某 个 器 件 
层 ， 且 对 于 任意 器 件 层 k 上 的 任意 点 (u, v) 仅 有 一 个 单元 覆盖 该 点 (AER). 
之 后 ， 我 们 示 出 不 存在 非 整 数值 的 z (反之 可 证 ) 。 如 果 单 元 w 具有 非 整 数 
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zi, RAAK Ei DC, yi) = 天 ， 所 以 有 天 个 单元 覆盖 (x7, y/o 。 根 据 
合子 洞 原理 ， 因 为 所 有 变量 iz] 在 [1，K] 的 范围 内 ， 这 天 个 单元 中 至 少 有 两 
NTE va, vo TE z 轴 的 距离 |z; -z3 | <1。 在 不 损失 一 般 性 的 情况 下 ， 我 们 假定 
zi Szi, WAHRER kell, 2, =, KI liz; e (Rh, k+0.5)] Hzi e(k, 
k+1.5), 或 z* e(k-0.5, k) Hzie(k-0.5, k+1) 两 者 之 一 成 立 。 容 易 验 证 
在 前 者 情况 下 jz - (4 +0.5)| + [23 -(k405) | «1H E,(x/ ,y/ )=n(k+0.5, 
zi) + (k+0.5,23) >1。 在 后 面 这 种 情况 下 ,|z? -k| + lz -kl < 1, 
ID, (x? y?) loy (uni ) +y(k,z; ) >1。 这 两 种 情况 都 导致 Bi (xi y; ) >1 或 
D(x? ,yi ) >1, 其 与 (*" ,7"，z") 是 Penalty(*, y, z) 最 小 值 的 假定 冲突 。 

因此 ， 只 存在 一 个 非 整 数 z; ， 并 且 Penalty(x, y, z) 的 每 个 最 小 值 均 是 z 方 
回 的 合法 布局 。 

在 解析 布局 引擎 中 ， 密 度 D, (u, v) ME Qu, v) 用 平滑 密度 D, (u, v) 和 
E,(u, v) 替 代 以 示 区 别 。 在 本 章 参 考 文献 [6] P, Hr GR SERRE ZI IRE 
(Helmholtz) 等 式 平滑 化 ， 即 








E 2 -1 
2 十 z-e) D,(u,v) 
(5-38) 


同时 在 我 们 的 实现 的 过 程 中 使 用 了 平滑 化 的 密度 惩罚 函数 ， 即 


Penalty( x ,y ,2) = X f [ Duv) - 1) dude 4 
Y [ [Aun -T lud (5-39) 
其 梯度 可 以 用 本 章 参 考 文献 [12] 中 的 方法 高 效 计算 。 
5.4.3 多 层 架 构 
以 下 的 优化 问题 总 结 了 我 们 的 解析 布局 引擎 ， 即 
2, (LC) + Apsy * TSV(e)) + 


E aus 
wth Zh 0 (D,(u,v) - 1) dudv* 


Y | [Au - 1)?dudv) 


FAI po 直到 密度 惩罚 足够 小 
该 解析 引擎 与 本 章 参 考 文献 [15] 中 的 含 粗 化 、 松 弛 和 插值 的 多 层 架 构 合 并 。 


最 小 (5-40) 
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粗 化 的 目的 是 构建 多 层 表 结构 ， 其 中 我 们 使 用 最 优 超 图 徐 ”。 

在 结构 设置 完毕 后 ， 多 重 布局 问题 通过 最 粗 层次 到 最 精细 层次 求解 。 在 较 粗 层 
次 ， 簇 建 模 为 单元 ， 簇 间 的 互 连 建 模 为 线 网 ， 这 样 每 个 层次 都 有 了 一 个 布局 问题 。 
每 层次 的 布局 问题 通过 解析 引 敬 式 (5-40) 求解 (松弛 )。 

这 些 布局 问题 从 最 粗糙 层次 到 最 精细 层次 的 顺序 求解 ， 其 中 在 较 粗 层次 的 解 做 
插值 以 获得 下 一 个 较 细致 层次 的 初始 解 。 簇 中 拥有 最 高 级 别 的 单元 置 于 该 禾 的 中 心 
(C 点 ) ， 而 其 他 单元 置 于 与 它们 邻近 的 C 点 的 加 权 平 均 位 置 ， 其 权重 与 到 这 些 族 
的 连接 性 成 正比 。 


5.5 基于 变换 的 技术 


基于 变换 的 技术 ”的 中 心思 想 是 将 现存 3D 布局 结果 通过 两 步 过 程 生成 3D 热 
敏感 布局 ， 两 个 步骤 为 通过 层 指 定 的 3D 变换 和 精细 化 。 在 本 节 中 ， 我 们 将 介绍 3D 
变换 ,包括 本 地 堆 悉 变换、 基于 折 悉 的 变换 以 及 基于 窗口 的 堆 苹 / 折 芋 变换。 通过 
层 再 指定 的 精细 化 与 所 有 技术 相同 ， 将 在 5. 6. 3 节 中 介绍 。 

基于 变换 的 3D 布局 技术 的 架构 如 图 5-7 所 示 。 带 短线 边缘 的 部 分 是 基于 变换 
的 技术 利用 的 现 有 的 2D 布局 工具 。2D 线 网 长 度 驱动 和 /或 热 驱 动 布局 器 首先 用 于 
生成 目标 设计 的 2D 布局 ， 即 在 布局 区 域 面积 等 于 总 的 3D 布局 面积 。 最 终 3D 布局 
的 质量 高 度 依赖 于 该 初始 布局 。 随 后 根据 给 定 的 3D 工艺 , 该 2D 布局 转换 为 合法 
3D 布局 。 在 变换 中 考虑 了 线 网 长 度 、TSYV 数目 和 温度 。 通 过 层 重 指定 的 精细 化 过 
程 将 在 3D 转换 后 进行 以 进一步 减少 TSV 数 并 降低 片上 最 高 温度 。 最 后 ，2D 详细 





基于 转换 的 技术 始 于 面积 天 倍 于 3D 芯片 一 个 器 件 层面 积 的 2D 布局 ， 其 中 天 
是 硕 件 层 的 数目 。 给 定 优化 了 线 网 长 度 的 2D 布局 解 ， 我们 可 以 执行 本 地 堆 鲜 转换 
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以 实现 同一 电路 在 3D IC 工艺 下 更 短 的 线 网 长 度 。 我 们 也 可 以 应 用 基于 折 侠 的 转换 
方式 ，2 gp 4 折 香 ， 其 能 够 以 极 低 的 TSV 数目 生成 3D 布局 。 此 外 ，TSV % H 
和 线 网 长 度 的 折 中 能 通过 基于 窗口 堆 释 / 折 炙 的 方法 实现 。 所 有 这 些 转 换 方法 能 
证 在 初始 2D 初始 布局 基础 上 的 线 网 长 度 缩减 。 


5.5.1 本 地 推倒 转换 方法 


本 地 堆 秋 转换 (LST) 由 两 步 组 成 ， 堆 琶 和 合法 化 ， 如 图 5-8 Hrs. HERA 
均匀 地 缩小 芯片 但 不 能 缩小 单元 面积 从 而 使 单元 堆 县 在 一 个 原 区 域 1/K 面积 的 区 
域 中 并 保持 初始 的 相对 位 置 。 合 法 化 步骤 通过 单元 的 位 置 指 定 最 小 化 最 大 片上 温度 
和 TSV BA. LST 的 结果 是 合法 的 3D 布局 。 





Du P 
fü fe f / /p—» f / > 
fuss Ff = 


图 5-8 KHER 


对 于 天 个 需 件 层 的 设计 ， 如 打 初 始 2D 布局 面积 为 S$， 那么 每 层 3D 单元 的 面积 
为 S/K。 在 堆 春 步骤 中 ， 初 始 布局 的 宽度 和 长 度 以 及“ 的 比率 缩小 ， 以 保持 初始 芯片 
的 宽 高 比 。 单 元 i 的 位 置 (x;，y;) 也 转换 到 新 的 位 置 (xj, yi), KIP x! zx/k^, 
Yi -y/k^, 

在 这 样 的 一 次 转换 后 ， 初 始 2D 布局 面积 变 为 S/K, OF oc ae RET K 的 2D 
布局 ， 后 者 将 在 合法 化 步骤 中 分 布 到 下 个 器 件 层 。Teris 型 合法 化 (0,5.6.2.2 5) 
能 应 用 以 确定 层 指 定 ， 其 也 可 能 优化 TSV 数目 和 温度 。 如 图 5-8 所 示 ， 一 组 互相 
堆 琶 的 相 邻 单元 在 转换 过 程 后 分 配 到 了 不 同 的 带 件 层 。 


5.5.2 HARTE 


LST 通过 将 相 邻 单元 堆 县 在 一 起 实现 了 较 短 的 线 网 长 度 。 然 而 ， 大 量 的 TSYV 将 
在 本 地 线 网 单元 堆 琶 时 生成 。 如 果 目 标 3D IC 工艺 仅 允许 有 限 的 TSV 密度 ， 就 需要 
生成 较 少 TSV 的 转换 技术 。 

基于 折 炙 的 转换 将 初始 2D 布局 像 一 张 纸 一 样 折 笃 而 不 砍 掉 布 局 的 任何 一 部 
分 。 在 任意 两 个 单元 间 的 距离 将 不 增加 且 总 线 网 长 度 确保 减 小 。TSYV [UTERE BE TT S 
线 (在 图 5-9 中 以 短线 示 出 ) 的 线 网 中 引入 。 通 过 最 小 化 线 网 长 度 的 初始 2D 布 
局 ， 这 样 的 长 线 网 数目 应 该 相当 小 ， 这 意味 着 折 秋 区域 间 的 互 连 受 到 了 限制 ， 从 而 
导致 了 少 得 多 的 TSV (与 LST 转换 结果 比较 ， 其 中 许多 高 密度 本 地 互 连 穿 过 不 同 
Wirth). Al5-9a 示 出 了 一 种 折 双 的 方法 ， 称 为 2 WMA, ME x AA y 轴 方 向 
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各 折 蚕 一 次 实现 。 图 5-9b 示 出 了 另 一 种 折 和 大 方法 ， 称 为 4 He, LE x HAM y 
轴 方 向 各 折 秋 两 次 实现 。 折 番 结 果 在 3D 布局 中 合法 化 ， 所 以 此 步 不 需要 合法 化 。 


U U 


— J j 
gy — ^ 





a) 29 fe b) 49r fedt 
图 $-9 两 种 基于 折 和 县 的 转换 方法 


在 基于 折 共 的 转换 后 ， 仅 跨越 折 羡 线 的 全 局 线 网 的 长 度 (图 5-9 中 的 虚线 ) 得 
到 缩减 。 因 此 ， 基 于 折 秋 的 转换 技术 不 能 达到 LST 的 线 网 长 度 缩减 程度 。 进 一 步 讲 ， 
如 果 我 们 想 保持 必 片 的 初始 宽 高 比 ， 基 于 折 和 县 的 转换 将 受到 奇数 部 件 层 的 限制 。 


5.5.3 ”基于 窗口 的 堆 芭 /折价 转 换 方法 


如 上 所 述 ，LST 方法 以 大 量 TSV 的 成 本 实现 了 线 网 长 度 最 大 缩减 ， 而 折 笃 方法 
使 得 TSV 数 较 少 ， 但 线 网 长 度 较 长 并 可 能 出 现 沿 折 番 线 的 高 TSV 密度 。 

理想 的 3D 布局 需要 较 短 的 线 网 长 度 ， 同 时 TSV 密度 需 满足 垂直 互 连 工 艺 可 支 
持 的 要 求 。 此 外 ， 出 于 可 布线 度 的 考虑 ， 我们 倾向 于 较 均匀 的 TSV 密度 。 因 此 ， 
我 们 提出 了 基于 窗口 的 堆 释 / 折 闭 方法 以 实现 更 好 的 TSV 密度 控制 。 

在 该 方法 中 ，2D 布局 首先 分 为 NV x NN 个 窗口 。 接 着 在 每 个 窗口 中 使 用 堆 笃 或 
折 巷 转换 。 每 个 窗口 可 使 用 不 同 的 堆 又 / 折 苹 顺序 。 图 5-10 示 出 了 N=2 的 情况 。 
电路 分 为 2x2 个 窗口 (以 实 线 示 出 )。 每 个 窗口 再 次 分 为 4 个 方块 (以 虚线 示 
出 ) 。 每 个 方块 中 的 数字 代表 该 方块 堆 友 / 折 春 后 所 处 器 件 层 数 。 每 个 窗口 以 4 层 
布局 打包 来 构建 最 终 的 3D 布局 。 

线 网 长 度 的 缩减 来 源 于 以 下 原因 : 在 同一 块 中 的 线 网 的 长 度 保持 不 变 ; 在 同一 
徐 口 中 的 线 网 的 长 度 极 有 可 能 受 堆 钱 / 折 秋 的 影响 而 减 小 ; 同时 穿 过 不 同窗 口 线 网 
长 度 减 小 。 因 此 总 线 网 长 度 质量 得 到 提升 。 

与 此 同时 ，TSYV 均匀 分 布 在 不 同窗 口 并 通过 选择 合理 的 层 指 定 使 解数 目 减 少 。 
TSV 由 穿 过 相 邻 方块 具有 不 同 层 数 的 线 网 引入 ， 我们 称 该 处 于 相 邻 方块 间 的 边界 为 
转 边 。 较 少 的 转 边 导致 较 少 的 TSV 数目 。 因 为 我 们 需要 将 窗口 内 部 方块 分 配 到 不 
同 需 件 层 ， 所 以 窗口 内 的 转 边 不 能 减少 。 因 
此 我 们 重点 关注 减少 窗口 间 的 转 边 。 由 于 图 
5- 10a 中 的 顺序 层 指定 产生 了 大 量 转 边 ， 我 
们 使 用 如 图 5- 10b 所 示 的 另 一 种 层 指 定 ， 称 
为 对 称 指 定 ， 来 将 窗口 间 转 边 减 小 到 零 。 故 
此 层 指定 生成 了 最 少 的 TSV 数目 ， 而 线 网 长 ”图 5-10 采用 不 同 层 指定 的 2 x2 窗口 
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度 相 似 。 
线 网 长 度 与 TSV 数目 的 折 中 可 由 窗口 的 数目 来 控制 。 


5.6 合法 化 和 详细 布局 技术 


在 全 局 布局 阶段 不 需要 任意 单元 的 最 终 位 置 。 合 法 化 负责 去 除 单元 间 残 存 的 重 
和 于， 同时 详细 布局 执行 布局 质量 的 进一步 的 精细 化 。 

粗 合法 化 〈 见 5.6.1 节 ) 桥接 了 全 局 布局 和 详细 布局 间 的 鸿沟 。 即 使 对 于 5. 2 
节 中 讨论 的 离散 基于 布局 技术 ， 如 果 器 件 层 数 天 不 是 2 WE, BR A EB XT 
分 后 出 现 。 出 于 节约 运行 时 间 的 目的 ， 其 他 在 5.3 节 和 5.4 节 中 讨论 的 连续 技术 通 
常 在 区 域 密度 约束 严格 满足 后 停止 。 粗 合法 化 将 单元 分 布 的 更 均匀 ， 从 而 使 随后 的 
详细 合法 化 阶段 〈 见 5.6.2 节 ) 能 假设 本 地 单元 的 移动 足够 得 到 合法 布局 。 为 外 
PA Tetris 型 合法 化 的 合法 化 技术 也 将 在 5. 6. 2. 2 市 中 介绍 。 

详细 布局 执行 了 单元 的 本 地 交换 以 进一步 精细 化 目标 明 效 。 如 有 果 在 一 个 天 件 层 
内 交换 ， 其 与 2D 详细 布局 没有 区 别 。 需 件 层 间 的 交换 是 3D 布局 中 的 新 内 容 。 使 
用 松弛 冲突 线 网 图 来 减少 TSV 数 的 技术 将 在 5. 6. 3 节 介 绍 。 


5.6.1 粗 合法 化 


虽然 在 粗 合法 化 后 产生 的 布局 仍 含 重 全 ,但 单元 均匀 地 分 布 在 布局 区 域 使 详细 
布局 中 避免 了 在 过 大 的 区 域内 执行 计算 密集 的 本 地 计算 。 粗 合法 化 ”利用 了 称 为 
单元 平移 的 扩展 的 试探 算法 来 为 详细 合法 化 和 精细 化 布局 做 准备 。 

为 了 利用 单元 平移 试 控 法， 布局 区 域 [0,W] xLO,H] xLO,K] 分 为 MxNxL 
个 桶 ， 其 中 在 (x,, y;, z) 的 单元 cell; 映射 到 区 域 [x, -— w,/2,x; -w,/72] x Ly; - 
h,/2,y,+h/2] x[z 一 1,z;]。 在 单元 平移 过 程 中 ， 单 元 每 沿 一 个 方向 移动 ， 即 会 向 
3 个 方 回 移动 3 次 。 

单元 平移 在 x 轴 方 向 的 展示 在 图 5-11 中 示 出 。 在 该 例 中 ， 行 方向 灰色 的 桶 边 
界 根 据 桶 密度 移动 。 标 在 桶 中 的 数字 是 桶 的 密度 ， 其 中 dj 和 d;, 分 别 是 单元 平移 
前 后 的 桶 密度 。 新 的 桶 宽度 WIE BS SE BE W, 之 间 的 比率 为 W,/W,, ee T 
从 左 至 右 的 桶 的 比率 分 别 约 为 0.9、1.4、1.0、0.8、1.3 和 0.5。 因 此 在 这 些 桶 中 
的 单元 也 沿 x 轴 方 回 移 动 并 且 桶 的 密度 调整 到 满足 密度 约束 。 比 率 W/W, 与 桶 密 
BEd 相关 ， 如 图 5-12 所 示 。 在 该 图 中 ,x 轴 代 表 桶 密度 d, y 轴 表 示 比 率 W/W, o 
ARM ay, a, 和 对 每 行内 部 均 相 同 (与 灰色 行 相同 ), 但 是 对 不 同行 可 能 有 差异 ， 
其 值 被 调整 到 能 够 保持 每 行 中 总 的 桶 宽度 为 常数 。 

在 单元 平移 后 ， 每 个 桶 中 的 单元 密度 确保 不 超过 其 容量 。 但 该 试探 法 无 法 考虑 
震 优化 的 目标 晒 数 。 因 此 ， 单 元 移动 和 单元 交换 操作 在 单元 平移 之 后 进行 ; 这 将 优 
Ik HERRN (5-8). 并 保持 密度 低 于 每 个 桶 中 的 特性 要 求 。 
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图 5-11 单元 在 x 方向 的 平移 





图 5-12 单元 平移 桶 宽度 与 密度 的 对 比 


5.6.2 详细 合法 化 


详细 合法 化 将 单元 置 于 最 近 的 可 用 空间 ， 实 现 目 标 果 数 最 小 退化 。 我 们 介绍 两 
种 实现 该 任务 的 详细 合法 化 技术 。 基 于 DAG 的 合法 化 假设 单元 分 布 已 经 在 粗 合法 
化 中 实现 了 均匀 化 ， 并 努力 仅 在 附近 移动 单元 。Tetris 型 合法 化 则 仅 假 设 单元 分 布 
Æ (x, y) 平面 的 投影 中 均匀 ， 并 能 在 层 指定 未 给 定时 将 其 确定 ,或 在 初始 层 指 
定 给 定时 最 小 化 错位 。 

5.6.2.1 基于 DAG 的 合法 化 

该 详细 合法 化 过 程 创 建 了 一 个 比 在 粗 合法 化 中 使 用 的 网 格 更 精细 的 网 格 ， 并 由 
相 比 平均 单元 面积 更 小 的 桶 组 成 。 通 过 用 桶 宽度 除 以 桶 中 单元 宽度 (而 不 是 面积 
的 准确 值 ， 桶 密度 实现 了 以 更 细 化 的 计算 。 为 了 保证 密度 精确 的 在 布局 的 不 同 半 间 
平衡 ， 由 桶 边缘 形成 的 分 割 面 的 每 一 侧 现存 空间 量 或 缺少 的 空间 量 分 别 被 计算 得 
到 。 构 建 定向 开 环 图 (DAG)， 其 中 从 含 多 余 单 元 面积 的 桶 向 可 以 接受 附加 单元 面 
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积 的 邻近 桶 创建 定向 边 。 通 过 DAG， 可 以 得 到 桶 处 理 顺序 的 从 属 关 系 ， 同 时 单元 
被 按 顺 序 放置 到 其 最 终 位 置 。 此 外 ， 目 标 函 数 对 于 单元 移动 的 灵敏 度 的 估计 也 用 来 
确定 单元 的 处 理 顺 序 。 使 用 该 处 理 顺 序 ， 算 法 在 单元 初始 位 置 周围 的 目标 区 域 中 为 
一 个 单元 寻找 最 优 可 用 位 置 。 目 标 函 数 用 于 确定 哪个 目标 区 域 中 的 可 用 位 置 可 得 
到 最 优 结果 。 如 果 可 用 位 置 没 有 找到 ， 目 标 区 域 就 逐渐 扩展 直到 其 中 含 的 行 碎片 中 
有 足够 多 的 空闲 空间 。 如 果 已 处 理 的 单元 需要 移 开 以 合法 放置 单元 ， 它 们 的 移动 在 
目标 函数 上 的 影响 包含 在 将 单元 放置 到 该 位 置 的 成 本 中 。 
5.6.2.2 Tetris 型 合法 化 
Tetris 型 合法 化 技术 5 可 应 用 于 3D 全 局 布局 ， 其 中 单元 区 域 在 (x, y) 平面 
上 的 投影 可 得 到 较 好 分 布 。 为 准备 合法 化 ， 所 有 的 单元 按 其 x 轴 坐 标 增 序 排序 。 从 
最 左 侧 的 单元 开始 ， 用 类 似 2D 布局 合法 化 中 使 用 方法 的 方式 逐个 确定 单元 的 位 
置 。 每 一 次 ， 考 虑 每 层 每 行 最 左 侧 的 合法 位 置 。 我 们 通过 最 小 化 重 定 位 成 本 R3 
取 位 置 : 
R=a-:d+B-vty:t (5-41) 
st, dW eat ae RSS HCH; v TSV MA; t 是 热 成 本 ; 系数 a、 
B. y 为 预 设 定 权 重 ; 成 本 d 与 单元 的 (x, y) 位 置 有 关 ， 同 时 成 本 v 和 1 与 单元 的 
z1HAE/H Xo 
在 该 合法 化 过 程 中 ， 温 度 优化 通过 单元 的 层 指 定 实现 。 在 现 有 3D IC 工艺 
F, PROB IKE 3D IC MEG BEN (和 /或 项 侧 ) ， 而 其 他 边缘 是 隔 热 的 。 因 此 
3D IC 堆肥 中 的 主要 热流 是 垂直 于 热 沉 的 。 本 曹参 考 文献 [17] 中 的 研究 显示 单元 
的 z 位 置 将 比 (x, y) 位 置 对 最 终 温 度 有 更 大 的 影响 。 因 此 ， 如 果 初 始 2D 布局 是 
热 敏 感 的 ， 就 可 以 处 理 横 辐 热流 ， 从 而 使 热 单 元 均匀 分 布 以 避 人 分 热点。 
全 阻 热 模型 用 于 最 终 温 度 验 证 。 在 优化 过 程 的 内 部 循环 中 ， 采 用 了 用 于 温度 优 
化 的 更 简单 和 迅速 的 热 模 型 ”来 加 速 布局 过 程 。 每 个 片 堆 羡 视 为 独立 的 热 阻 链 。 
E TT EA 


DAE >P - SNES + R,) (5-42) 
除 速 度 更 快 外 ， 这 样 的 简单 封闭 等 式 还 可 为 热 敏感 音 元 层 指定 提供 直接 向 导 。 
| X (5-42) 告诉 我 们 片 堆 释 的 最 高 温度 是 每 层 功率 数 的 加 权 和 。 而 每 层 的 权重 是 
该 层 以 下 阻 值 之 和 。 徘 近 热 沉 的 融 件 层 权 重 较 小 。 
指定 单元 j 到 层 i 的 热 成 本 4;, 写 为 
tij = Pí Y R, * R, | | (5-43) 


层 指定 的 热 成 本 在 式 (5-41) 和 布局 精细 化 过 程 中 均 被 使 用 ， 将 在 5.6.3 节 
中 介绍 。 
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5.6.3 通过 RCN 图 的 层 指 定 


在 5.5 节 中 提出 的 3D 转换 中 ， 单 元 的 层 指定 是 基于 简单 试探 法 的 。 为 了 进 一 
步 减少 TSV 数目 和 温度 ， 本 章 参考 文献 [19] 中 提出 了 一 种 创新 的 层 指定 算法 来 
重新 指定 单元 层 。 

5.6.3.1 冲突 线 网 图 CNG 

本 章 参考 文献 [8] 中 提出 的 金属 线 层 指定 算法 扩展 到 了 3D 布局 中 的 单元 层 
指定 。 对 于 给 定 的 合法 化 的 3D 布局 ， 创 建 了 冲突 线 网 图 ， 如 图 5-13 所 示 ， 其 中 
单元 和 通 孔 都 是 节点 。 每 个 线 网 指定 一 个 通 孔 节点 。 有 两 种 类 型 边 : 线 网 边 和 冲突 
边 。 星 形 模 式 下 ， 每 个 线 网 中 所 有 的 单元 通过 线 网 边 连 接 到 通 筷 市 点 。 如 果 相 互 重 
至 的 单元 置 于 同一 层 ， 那 么 在 两 者 间 创 建 冲 突 边 。 





图 5-13 松弛 后 的 冲突 线 网 图 


图 5-13 中 对 每 个 单元 的 层 指定 是 首选 方案 ， 因 为 这 样 能 将 包含 边 成 本 和 节点 
成 本 在 内 的 总 成 本 最 小 化 。 所 有 的 线 网 边 指定 为 成 本 0。 如 果 通 过 一 个 冲突 边 连 接 
两 个 单元 指定 到 同一 层 ， 冲 突 边 的 成 本 设置 为 9; 相反 ， 成 本 设 为 0。 通 孔 节 点 
的 成 本 是 该 通 孔 的 高 度 ， 其 代表 了 该 线 网 中 的 总 TSV 数目 。 通 孔 的 高 度 由 连接 它 
们 的 单元 的 层 决 定 。 单 元 节点 风 的 成 本 是 将 vw 指定 到 i 层 的 热 成 本 1;;。 路 径 成 本 
是 沿 该 路 径 的 边 成 本 和 节点 成 本 的 总 和 。 

由 此 得 到 的 图 是 一 个 有 向 开 环 图 。 动 态 编程 优化 法 可 用 于 在 线性 时 间 内 找到 图 
的 每 个 引出 的 子 树 的 最 优 解 。 接 着 ， 构 建 CNG 中 最 大 引出 子 树 序列 的 算法 用 来 覆 
兹 大 部 分 的 初始 图 。 最 终 引 出 子 树 的 平均 节点 数 最 多 能 达到 图 中 总 节点 数 的 40% ~ 
50% 。 在 于 树 的 迭代 优化 后 ， 我 们 可 以 得 到 全 局 优化 解 。 具 体 的 用 CNG 解 层 指定 
问题 的 详细 算法 请 参阅 本 章 参考 文献 [8]. 

5.6.3.2 松弛 非 重 又 约束 

为 了 进一步 减少 TSV 数目 和 最 大 片上 温度 ， 非 重生 约束 可 松弛 化 来 允许 少量 
HU EUER > 以 换取 单元 的 层 指定 的 更 多 自由 度 。 

松弛 化 的 非 重 和 至 定义 如 下 : 
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o(i,j) 
{EZ , ANAS i EFF 


o(i,j) 
Be Wy 


stip, oli, j) 为 单元 vv 和 w RAKE; s(i) ÆA i WR, MAENE r 
是 0 ~0.5 之 间 的 正 实数 ， 均 在 图 5-14 中 示 出 。 因 此 ,通过 松弛 化 的 非 重 释 约 束 ， 
层 指定 结果 将 不 再 是 合法 化 的 3D 布局 。 将 需要 为 一 轮 合法 化 来 消除 重 倒 


8$ LJ) = (5-44) 








'=10%, ABH 
图 5-14 JEER AR KAE 


5.7 三 维 布 局 流程 


3D 布局 流程 分 为 全 局 布局 阶段 、 粗 合法 化 阶段 和 详细 合法 化 阶段 ， 其 中 我 们 
重点 关注 处 在 最 前 阶段 的 全 局 布局 技术 。 

我 们 可 使 用 5.2 ~5.6 节 中 讨论 的 用 于 全 局 布局 的 基于 分 块 的 技术 、 二 次 均匀 
性 建 模 技术 、 解 析 技 术 (作为 多 层 引 擎 技术 示例 引入 ) 或 基于 转换 的 技术 。 为 了 
加 速 运 行 时 间 并 得 到 更 好 的 质量 ， 可 应 用 多 层 技 术 ， 其 中 任意 一 种 以 上 的 全 局 布局 
技术 均 可 用 作 布 局 引擎 。 

粗 合 法 化 并 非 总 是 必要 的 ， 其 应 用 依赖 于 详细 合法 化 的 要 求 。 基 于 DAG 的 详 
细 合 法 化 需要 在 给 定 桶 的 粗略 均匀 密度 分 布 ， 因 此 粗 合法 化 在 全 局 布局 结果 不 能 达 
到 面积 分 配 要 求 时 是 必要 的 。Tetris 型 合法 化 工作 适用 于 任意 给 定 布局 ， 但 仍 更 倾 
回 于 为 得 到 更 优 合法 化 的 布局 质量 而 进行 均匀 优化 得 到 的 全 局 布局 。 

在 详细 合法 化 后 ， 像 逐 层 2D 详细 布局 一 样 ， 将 会 执行 基于 RCN 的 层 指定 精细 
化 。 在 基于 RCN 精细 化 过 程 中 如 果 重 三 〈 例 如 10% ) 被 允许 ， 合 法 化 将 被 执行 。 
多 次 RCN 精细 化 和 合法 化 的 迭代 后 ,布局 质量 持续 改善 。 在 合法 的 3D 布局 实现 
后 ， 整 个 3D 布局 流程 结束 。 


5.8 多 种 三 维 布局 技术 的 影响 


在 本 方 中 我 们 将 总 结 多 种 3D 布局 技术 的 实验 结果 。 

5.8.1 PEERKE TSV 优化 上 得 到 的 结果 。 基 于 转换 的 技术 和 多 层 解 
析 布 局 技术 在 线 网 长 度 和 TSV 数目 间 折 中 的 能 力 得 以 展示 并 相互 比较 。 基 于 分 块 
技术 的 结果 也 从 本 曹参 考 文献 [27] 中 提取 并 转换 后 做 比较 。 读 者 还 可 以 参阅 本 
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章 参考 文献 [41] 了 解 二 次 均匀 性 建 模 布局 技术 的 结果 。 在 详细 布局 中 ，RCN 基 
于 图 的 精细 化 也 对 线 网 长 度 和 TSV 数 的 折 中 有 影响 ， 其 结果 也 会 被 说 明 。 

5. 8. 2 节 关 注 3D 布局 过 程 中 的 热 优 化 。 热 线 网 权重 和 热 敏 感 Tetris 型 合法 化 的 
实验 结果 在 该 节 丰 出 。 


5.8.1 线 网 长 度 和 TSV 数目 的 折 中 


表 5-1 列 出 了 基准 电路 号 ] 中 的 18 种 电路 ， 用 来 测试 3D 布局 器 
我 们 将 使 用 该 基准 电路 来 在 非 热 敏感 的 情况 下 比较 3D 布局 结果 。 通 过 计算 几何 均 
值 来 测量 和 比较 全 部 结果 。 


表 5-1 基准 电路 特征 和 mPL'" | 的 2D 布局 结果 


我 们 首先 在 非 热 敏感 的 情况 下 比较 多 种 基于 变换 的 布局 技术 ( 见 5.5 节 ) 的 
结果 ， 见 表 5-2。 结 果 从 不 同 的 变换 方案 中 生成 ， 包 括 本 地 堆 敌 转换 “LST”， 基 于 
窗口 的 转换 “LST (8x8 f)", HÆR "2 Dp". LST 和 2 PHBH 5.5.1 节 和 
5.5. 2 节 中 摘 述 的 相同 ，LST (8x8 Bf) 是 通过 将 布局 区 域 分 割 为 8 x 8 个 窗口 并 
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在 每 个 窗口 中 进行 LST 的 基于 窗口 的 转换 。 与 2 HARA LE, LST 能 以 17 1% TSV 数 
目的 成 本 减 小 44% 的 线 网 长 度 ; LST (8 x8 A) 能 以 5 倍 TSV 数目 的 成 本 减 小 
20% 的 线 网 长 度 。 这 些 结果 展示 了 基于 转换 方法 在 线 网 长 度 和 TSV 数 间 折 中 的 能 
力 ， 其 可 通过 在 基于 窗口 的 混合 变换 中 改变 窗口 数目 实现 。 转 换 方法 的 选择 依赖 整 
体 线 网 长 度 的 重要 性 和 TSV 制造 成 本 。 

表 5-2 ”基于 转换 技术 的 三 维 布 局 结果 


LST(8 x8win) 


d 
或 
| 
si 
3 


K 5-3 展示 了 TSV 权重 arsy 710 的 多 层 解 析 技 术 (055.4 5). Muf FILE 
ZAR: 对 于 单 层 布局 、 两 层 布 局 、 三 层 布 局 的 结果 及 使 用 逐 层 2D 布局 的 详细 布局 
结 末 。 单 层 布 局 用 于 直接 执行 解析 布局 引擎 而 不 进行 任何 分 复 ， 而 两 层 布 局 和 三 层 
布局 通过 分 艇 构建 了 两 层 和 三 层 架 构 。 在 这 些 结果 中 ， 我 们 看 到 在 相同 的 TSV 数 
目 权 重 下 ， 单 层 布 局 实现 了 最 短线 网 长 度 ， 而 三 层 布 局 实现 了 最 少 的 TSV 数目 。 
我 们 通过 比较 采用 LST(r =10% ) (最 优 线 网 长 度 情况 ) 的 单 层 布局 、 采 用 LST (8 x 
8 窗 ) 的 两 层 布 局 、 采 用 2 Ur Cie TSV 情况 ) 的 三 层 布 局 来 比较 多 层 解析 布 
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局 技术 和 基于 变换 的 布局 技术 。 从 表 5-2 和 表 5-3 中 的 数据 来 看 ， 很 明显 单 层 布局 
相对 LST(r =10% ) 平均 能 实现 29% 的 TSV 数目 缩减 而 仅 有 5% 的 线 网 长 度 恶 化 ; 
三 层 布局 相对 2 Jr 863: 94 12% 的 线 网 长 度 缩 减 和 24% 的 TSV 数目 缩减 。 


表 5-3 基于 多 层 布 局 技术 的 三 维 布局 结果 


表 5-4 展示 了 基于 分 块 技术 ( 见 5.2 节 ) 在 不 同 TSV 权重 下 的 结果 。 这 些 数 
据 从 本 章 参 考 文献 [25] 的 结果 转化 而 来 ， 其 为 基于 基准 电路 “的 变形 版 本 。 在 
本 曹参 考 文献 [25] F, 行 间 距 设 为 25% 的 行 高 ， 而 在 原始 基准 电路 中 行 间距 等 
于 行 高 。 为 得 到 与 表 5-2 和 表 5-3 可 比较 的 数据 ， 我 们 假设 本 章 参 考 文献 [25] 中 
的 线 网 长 度 具 有 等 量 的 XX 方向 线 网 和 了 方向 线 网 ， 使 用 系数 50% +50% x2/(1 + 
25% ) =1.3 来 按 比 例 缩小 线 网 长 度 。 表 5-4 中 的 3 列 具 有 不 断 增 加 的 TSV 权重 ， 
其 中 也 示 出 了 线 网 长 度 和 TSV 数目 间 的 折 中 。 最 右 侧 的 列 TSV 数目 最 佳 ， 比 表 5-3 
中 的 三 层 布 局 节省 了 40% 的 TSV 数目 但 产生 了 33% 的 线 网 长 度 恶 化 。 但 最 左 侧 具 
有 最 优 线 网 长 度 的 列 比 表 5-3 中 的 单 层 布局 多 消耗 了 20% 的 线 网 长 度 和 39% 的 
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TSV 数目 。 中 间 列 也 不 能 像 表 5-3 中 的 两 层 工 作 得 一 样 好 。 这 些 数 据说 明 由 于 基于 
分 块 的 技术 的 分 块 特性 ， 其 擅长 TSV 数目 的 缩减 ， 但 它们 不 像 多 层 技术 那样 适用 
于 制造 更 多 TSV 以 实现 更 短线 网 长 度 的 情况 。 

表 5-4 基于 分 块 布局 技术 的 三 维 布 局 结果 


8. 00E-07 2. 00E-04 1. 30E-02 


如 5. 6. 3 节 所 述 ， 基 于 RCN 图 的 层 指定 过 程 "” 用 来 进一步 优化 3D 电路 的 
TSV 数目 。 表 5-5 和 表 5-6 分 别 示 出 了 基于 RCN 图 的 层 指定 算法 用 在 通过 本 地 堆 
BHR ( 见 5.5.1 节 ) 而 实现 的 布局 和 通过 平面 解析 技术 ( 见 5.4.2 节 ) 实现 的 
布局 的 效果 。 人 允许 重 炙 为 r=0 和 r=10% 的 RCN 精细 化 结果 给 出 ， 其 中 + =0% 是 
严格 非 重 羡 约 束 而 r=10% 允许 精细 化 过 程 中 相 邻 单 元 1096 P938 ER. EK 5-5 中 ， 
r =0% 时 平均 TSV 缩减 为 4% ， 线 网 长 度 无 任何 恶化 ; r = 10% 时 平均 TSV 缩减 为 
15% ， 线 网 长 度 恶 化 极 小 。 在 表 5-6 中 ,r =0 时 平均 TSV 缩减 为 3% ， 线 网 长 度 无 
任何 恶化 ; r =10% 时 平均 TSV 缩减 为 9% ， 线 网 长 度 恶化 1% 。 从 这 些 结果 可 以 看 
出 ， 本 地 堆 春 转换 的 布局 比 打 平 解析 布局 有 更 多 的 改善 空间 ， 这 也 说 明 解析 布局 方 
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法 得 到 了 比 基 于 转换 的 布局 方法 更 好 的 解 。 
表 5-5 AMMBRARME r =0 和 10 多 时 的 RCN 优化 结果 


r=0 的 RCN 后 r=10% BY RCN 后 





m E 


表 5-6 打 平 解析 结果 和 在 r=0 和 10% 时 的 RCN 优化 结果 


* » | WL( x107) | #TSV( x10") WL( x10’) | #TSV( x10?) 
bn 0.28 T 0.29 A 
ibm? 15.82 0.76 15.59 


NM 
[ew 
: 26.56 


ibm07 1. 56 54. 2] 1. 56 52. 82 1.59 49.57 
ws | 1e | sn | xe | se | in | ss 
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(SE) 


4TSV( x10?) | WL( x10’) |#TSV( x10?) 


电路 Z 

WL( x10") WL( x 107 ) 
ibm09 1.44 1. 44 
ibm10 2. 90 2. 90 
ibml 1 2. 12 2.19 
ibm12 3. 59 3. 59 
ibm13 2. 68 2. 68 
ibm14 5. 95 5. 95 
ibm15 6. 67 6. 67 
ibm16 8. 42 8. 42 
ber | 13.28 13.28 
ibm18 9. 52 9. 52 
Gum | fs 12 


5.8.2 热 优 化 的 影响 


5.8.2.1 热 敏感 线 网 权重 对 于 温度 的 影响 

式 (5-6) 中 定义 的 热 敏感 项 用 于 在 线 网 长 度 优 化 过 程 中 控制 温度 。 一 个 大 的 
热 系 数 arewp 以 更 长 线 网 长 度 和 更 多 TSV 数目 为 成 本 降低 了 更 多 的 温度 。 式 (5-12) 
中 定义 的 热 敏感 线 网 权重 是 实现 热 敏 感 的 等 效 方法 ， 其 与 热 系数 oup IAE EU 

热 敏感 线 网 权重 在 基于 分 块 的 3D 布局 器 ”中 实现 ， 其 对 温度 降低 的 影响 和 对 
线 网 长 度 及 TSV 数目 的 影响 如 图 5-15 所 示 。 对 于 稍 许 改 动 的 基准 电路 也 进行 了 
Ko TSV 系数 设 为 10( um), HA TAROT TSV OX 〈( 层 间 通 孔 数 ) 、 线 网 长 
度 、 总 功 耗 、 平 均 温 度 和 最 大 温度 的 影响 。 当 与 未 加 权 结 果 比 较 时 ， 这 些 方面 的 改 


变 白 分 比 取 基准 电路 中 ibm01 ~ ibm18 的 平均 改变 百分比 。 当 平均 温度 减 小 19% 
平均 百分比 变化 与 温度 系数 


59. 88 1. 47 56. 37 


86. 26 2. 97 81. 19 
85. 39 2. 19 79. 63 
93. 51 3. 64 87. 73 
106. 74 2. 71 99. 67 
209. 11 3.92 188. 71 
246. 45 6. 62 224. 01 
288. 13 8. 35 261. 84 


297. 61 13. 18 267. 90 


318. 80 9. 45 286. 02 


68. 67 2. 24 64. 61 





玉 1% 的 线 网 长 度 增加 


REGUM TT TN 


re 


1.00E-08 — 4.00E-08 1.60E-07 . 6.40E-07 2.56E-06  1.02E-05 4.1 0E-05 


图 5-15 在 热 系数 变化 时 的 平均 变化 百分比 
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时 ， 线 网 长 度 仅 增加 196, TSV 数目 增加 10% 。 

5.8.2.2 合法 化 对 温度 的 影响 

这 里 我 们 比较 两 个 Tetris 型 合法 化 过 程 : 一 个 不 含 热 敏感 处 理 ， 一 个 包含 热 敏 
感 处 理 。 单 元 功 耗 通过 在 10° ~10°W/m? 的 范围 内 指定 单元 功 耗 密度 随机 确定 ” 。 
温度 求 值 采用 热 阻 网 络 模型 和 本 章 参 考 文献 [40] 中 的 热 阻 值 。 初 始 布局 通过 应 
用 基于 转换 的 技术 ( 见 5.5 节 ) 中 的 本 地 堆 大 (LST) 法 生成 。 结 果 在 表 5-7 PAN 
出 ， 表 中 温度 为 最 大 片上 温度 和 热 沉 温度 的 差 值 。 与 不 含 热 敏感 处 理 的 合法 化 相 
比 ， 热 敏感 合法 化 平均 能 降低 39% 的 最 大 片上 温度 ， 带 来 8% 的 线 网 长 度 增 加 ， 市 
省 5% 的 TSV 数目 。 

表 5-7 Tertis 式 合法 化 的 热 敏感 结果 
非 热 敏感 的 Tetris 式 合法 化 热 敏感 的 Tetris 式 合法 化 

ia HE/ ^C #TSV( x10?) 温度 /SC 





WL( x10’) 


279. 002 0. 29 19. 67 150. 422 


207. 802 0. 72 31. 83 117. 516 


205. 766 0. 67 34. 13 120. 487 


163. 279 0. 85 42. 05 94. 648 


138. 501 2. 44 48. 59 78. 607 


165. 881 1. 05 32. Lan 101. 269 


108. 015 1. 57 72. 93 68. 382 


78. 86 61. 897 


ibm10 116. 92 58. 335 


1. 47 83. 35 59. 7815 


3. 01 112. 95 36. 3501 


2. 18 108. 96 172. 396 


ibml1 117. 03 283. 705 
= "T 
= TE 
ibm14 247. 46 
ibm15 284. 74 
ibm16 326. 99 
ibm17 332. 80 
ibm18 359. 07 
Geo- mean 101. 44 


206. 811 3. 65 120. 89 122. 211 


254. 684 2. 76 134. 61 157. 983 


128. 623 6. 07 235. 17 83. 4365 


137. 455 6. 76 274. 44 87. 672 


98. 5005 8. 74 318. 43 62. 428 


84. 73 13. 62 324. 44 52. 954 


89. 203 9. 76 348. 26 57. 089 


141. 88 2. 32 96. 30 86. 11 


5.9 三维 布局 对 线 网 长 度 和 中 继 器 使 用 的 影响 


本 市 中 我 们 将 介绍 多 个 针对 3D IC 技术 对 线 网 长 度 和 中 继 器 使 用 的 影响 的 研究 


EDA, ik tt Fe fk E IM 
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JUS 。 线 网 长 度 采 用 半 周 长 模型 ， 中 继 器 使 用 通过 互 连 优 化 器 IPEM ”在 后 布 
局 / 预 布线 阶段 估算 得 到 ， 其 中 2D 和 3D 布局 通过 先进 的 2D 布局 器 mPL6 ”和 多 层 
解析 3D 布局 器 '"” 得 到 。 在 基准 电路 套装 ”上 的 实验 显示 ， 中 继 器 的 总 数 在 3 层 
和 4 层 3D 电路 上 分 别 比 2D 电路 减少 22% 和 50% 。 


5.9.1 二 维 / 三 维 布局 器 和 中 继 器 估计 


mPL6 ”是 大 规模 混合 尺寸 布局 ， 包 含 多 层 解 析 布 局 器 和 和 鲁 棒 合 法 化 器 及 详细 
布局 器 。 这 是 为 线 网 长 度 驱动 的 布局 设计 的 ， 同 时 对 密度 敏感 。ISPD 2006 布局 竞 
赛 显示 mPL6 在 所 有 参加 比赛 的 布局 器 中 实现 了 最 优 的 线 网 长 度 。 

为 了 利用 3D 技术 的 优点 ， 我 们 使 用 多 层 解 析 3D 布局 器 ( 见 5.4 节 )。 该 3D 
布局 器 考虑 了 线 网 长 度 和 TSV 数 的 折 中 ， 并 显示 了 上 比 基 于 转换 的 技术 和 基于 分 块 
的 技术 更 好 的 折 中 能 力 。 请 参照 5. 8. 1 节 中 更 多 的 实验 结果 。 

IPEM'“ 提供 了 一 系列 程序 来 估计 在 深 亚 微米 工艺 下 多 种 性 能 优化 后 的 互 连 性 
能 。 这 些 优化 算法 包括 OWS (最 优 线 网 尺寸 调整 )、SDWS (同步 驱动 器 和 线 网 尺 
寸 调整 )、BIWS (缓冲 器 插入 和 线 网 尺寸 调整 ) 和 BISWS (缓冲 插入 、 尺 寸 调 整 
和 线 网 尺寸 调整 ) 。 同 时 大 量 的 互 连 版 图 优化 工具 (如 Tro", IPEM) 均 瞄 准 快 
速 准确 地 估计 优化 后 的 互 连 延 迟 和 面积 ， 从 而 可 通过 使 用 简单 封 财 计算 过 程 尽 可 能 
早 地 实现 设计 收敛 。 试 验 结果 "一 显示 IPEM 以 比 Trio 快 1000 倍 的 速度 运行 ， 可 大 
到 的 平均 准确 度 为 90% 。 


5.9.2 实验 设置 和 结果 


实验 在 IBM 布局 基准 电路 “” 上 进行 。 由 于 这 些 基 准 电路 没有 输出 /输入 引 脚 信 
轧 ， 为 得 到 相对 更 准确 线 网 长 度 信息 ， 我 们 使 用 一 个 线 网 的 最 小 线 网 长 度 树 来 估计 
该 线 网 需要 的 优化 中 的 继 器 数目 。 

直线 Steiner 最 小 树 广泛 地 应 用 于 设计 的 早期 阶段 ， 如 物理 综合 、 布 局 规划 、 
互 连 规划 和 布局 中 以 估计 线 网 长 度 、 布 线 拥塞、 互 连 延迟 。 它 使 用 最 小 线 网 长 度 边 
来 连接 给 定 线 网 的 节点 。 使 用 直线 Steiner 树 构 建 包 FLUTE'" 计算 Steiner 线 网 长 度 
树 来 估计 不 需 执 行 详细 布线 的 中 继 器 插入 。FLUTE 基于 预计 算 的 查找 表 来 使 低 阶 
线 网 的 Steiner 最 小 树 快速 准确 构建 。 对 于 高 阶 线 网 ， 其 被 分 为 多 个 低 阶 线 网 直到 
可 使 用 查找 表 。 | 

为 了 准确 估计 TSV 电阻 和 电容 的 延迟 和 面积 ， 本 章 参 考 文献 [22] 中 的 方法 
用 来 将 TSV 建 模 为 一 定 长 度 的 线 网 。 因 为 其 巨大 的 尺寸 ，TSV 自 电容 较 大 。 通 过 
每 个 通 孔 和 每 层 中 第 二 层 金 属 线 长 度 的 仿真 ， 作 者 “估算 3pm 厚 的 TSV 相当 于 
8 ~20hm 长 的 金属 线 。 因 为 每 个 TSV 较 大 的 纵 切 面积 (每 个 TSV 290.10), 其 电 
阻 不 那么 大 ， 约 等 价 于 0.2pm 长 的 第 二 层 金属 线 。 我 们 使 用 MIT 林肯 实验 室 开 发 
的 3D 工艺 ， 其 相 邻 层 间 的 最 小 距离 是 2 ~3.45$um。 因 此 ， 我 们 能 大 概 将 所 有 的 相 
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邻 层 间 的 TSV RCH 14 pm 长 的 金属 线 (8 ~20um 间 的 平均 值 ) 。 该 值 将 在 TSV SE 
过 两 层 时 翻番 。 

由 于 FLUTE 仅 能 生成 2D 最 小 线 网 长 度 树 ， 为 了 将 其 转化 用 于 3D 设计 的 3D 
树 ， 需 要 做 以 下 假设 : Q@ 假 设 所 有 的 树 线 网 置 于 3D MER BS; @ 在 其 他 层 
中 的 引 脚 使 用 TSV 连接 到 中 间 层 的 树 。 该 假设 最 小 化 了 线 网 中 的 总 传统 线 网 但 高 
fh fT TSV 总 数 。 因 此 ， 相 比 本 章 参考 文献 [19] 中 的 使 用 的 仅 简 单 将 通 孔 数 设 为 
层 数 和 线 网 范围 设 定 TSV 和 线 网 长 度 估计 方法 ,我 们 可 以 得 到 关于 总 线 网 长 度 更 
准确 的 信息 。 

实验 在 32nm 工艺 下 进行 。 用 来 配置 IPEM 的 工艺 参数 在 表 5-8 PHI, FFA 
我 们 运行 了 FLUTE 和 IPEM 对 每 个 基准 电路 中 的 每 条 线 网 。 


表 5-8 工艺 参数 
IZ 32nm 
时 钟 频率 2GHz 
供电 电压 (Vpop) 0.9V 
最 小 尺寸 中 继 单元 大 小 (Wi, ) 70nm 
晶体 管 输出 电阻 (7, ) 5kQ 
晶体 管 输出 电容 (c) 0. 0165fF 
品 体 管 输入 电容 (c, ) 0. 105fF 
金属 线 单位 长 度 电阻 (r) 1. 20/ um 
金属 线 单位 面积 电容 (cu ) 0. 148fF/ um? 
金属 线 有 效 边缘 电容 (c) 0. O8fF/ um 


45-9 给 出 了 2D 设计 、 三 层 3D 设计 、4 EZ 3D iit Al IBM 布局 基准 电路 的 比 
较 。 该 表 列 出 了 每 个 电路 的 线 网 长 度 ( 天 单位 am) 和 中 继 需 数 (Hrepeater) ， 还 
有 整体 几何 均值 和 归 一 化 几何 均值 。 由 结果 可 见 ， 通 过 应 用 三 层 3D Wit, 平均 下 
来 ， 相 比 2D 设计 的 情况 ， 总 线 网 长 度 可 减少 17% ， 互 连 中 的 中 继 器 数目 可 减少 
22% 。 此 外 ， 当 使 用 四 层 的 3D 设计 时 ， 线 网 长 度 可 进一步 减 小 40% ， 中 继 器 数目 
可 减少 50% 。 


表 5-9 IBM 布局 基准 电路 的 线 网 长 度 / 中 继 器 结果 


3 器 件 层 的 3D 设计 4 器 件 层 的 3D 设计 


电 路 erp dean rp HEA HHP OK aie 
WL( x 10’) WL( x10") WL( x10’) 
( x 10°) ( x 10°) ( x 10°) 


EDA、 设 计 和 微 体 系 结构 
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(5) 


2D 设计 3 器 件 层 的 3D 设计 4 器 件 层 的 3D 设计 


电 路 ir KAS LISSE E: # 中 继 需 
7 7 WL( x10’ 
ASDF guppy | OA ( x10?) CASU M ogueigis 


ibm04 1. 65 17. 69 1. 40 1. 02 8. 83 
ibm05 4. 08 51. 81 3. 09 37. 80 4. 33 21.21 
ibm06 2. 16 23. 72 19. 72 1. 33 12. 13 


ibm07 3. 18 2. 12 1.94 17. 88 
ibm08 3. 71 3. 242 2. 23 21. 80 
bu» | 29 L5 Ls | ise 
= T »s | 35.48 
ibml 1 4. 22 3. 83 2. 58 22. 09 
ibm12 7.42 6. 29 4. 37 46. 05 
ibm13 5. 50 4. 26 3. 34 29. 97 
ibm14 | 12. 22 9. 36 7. 04 68. 48 
us | ue | wo | iz | uos | ao | so 
ibm16 18. 25 13. 26 10. 21 105. 23 
ibm17 28. 26 21. 31 15, 32 173. 60 
ibm18 20. 75 14. 73 11. 62 120. 13 
Geo- mean 4. 67 3. 87 2. 79 26. 74 


通过 3D IC 5j 2D EORR, PARA A DAT s ZEIT EZ). 
这 是 因为 增加 的 层 数 将 有 效 减 小 市 有 较 大 最 小 线 网 长 度 树 的 线 网 的 长 度 ， 而 带 有 最 
小 线 网 长 度 树 的 线 网 总 是 不 需要 中 继 咒 。 如 在 IPEM 结果 中 看 到 的 那样 ， 小 于 
500 m 的 线 通 常生 成 零 个 中 继 器 。 因 此 ， 通 过 减少 最 小 线 网 长 度 较 大 的 树 的 线 网 
KE, 我们 能 有 效 减 少 中 继 右 的 数目 和 片上 互 连 的 面积 / 功 耗 。 


5.10 总结 和 结论 


三 维 IC 工艺 为 电路 设计 了 附加 一 个 维度 的 自由 空间 。 这 将 提升 器 件 封装 密度 
并 减 小 总 体 互 连 的 长 度 ， 因 此 将 有 利于 3D 电路 的 功能 、 性 能 和 功 耗 的 提升 。 然 
而 ， 该 技术 也 挑战 了 布局 工具 。TSYV 的 制造 并 不 简单 ， 因 此 布局 工具 需要 考虑 TSV 
的 成 本 并 实现 折 中 来 避免 抵消 线 网 长 度 减 小 带 来 的 益处 。 由 于 热源 的 堆 琶 和 长 的 热 
耗 散 路 径 ， 热 问题 也 是 3D 电路 的 关键 挑战 。 

在 本 章 中 ， 我 们 给 出 了 热 敏 感 3D 布局 工具 问题 的 定义 和 现 有 文献 中 3D 布局 
技术 的 总 结 。 我 们 特别 介绍 了 几 种 具有 代表 性 的 3D 布局 技术 的 细节 ， 包 括 基于 分 
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块 的 技术 、 二 次 均匀 建 模 技术 、 多 层 布局 技术 和 基于 转换 的 技术 。 特 别针 对 3D fü 
局 的 合法 化 和 详细 布局 技术 进行 了 介绍 。 

基于 分 块 的 技术 在 5. 2 节 中 介绍 。 这 些 基 于 分 块 的 技术 是 在 传统 的 基于 分 块 过 
程 中 的 一 些 合适 阶段 插入 与 器 件 层 平行 的 分 块 面 。 分 块 的 成 本 通过 估计 线 网 长 度 和 
TSV 数 的 加 权 计 算 ， 其 中 线 网 进一步 用 热 敏 感 或 拥塞 敏感 系数 加 权 以 符合 温度 和 可 
布线 性 的 要 求 。 

二 次 均匀 建 模 技 术 属 于 二 次 布局 技术 的 范畴 ， 其 由 打 平 布局 技术 组 成 。 由 于 未 
约束 的 二 次 布局 将 引入 大 量 的 单元 重 释 ， 研 发 了 不 同 的 变形 形式 来 进行 重 琶 去 除 。 
二 次 一 致 性 建 模 技 术 ” 通过 每 次 迭代 的 另 一 个 二 次 函数 增加 了 密度 惩罚 果 数 ， 这 
样 整个 全 局 布局 将 能 通过 最 小 化 二 次 项 数 求解 。 

5.4 节 中 介绍 的 多 层 技术 一 构建 了 从 初始 网 表 得 来 的 物理 层次 ， 并 解决 了 从 
最 粗糙 层次 到 最 精细 层次 的 一 系列 布局 问题 。 

在 以 上 这 些 技术 之 外 ，5. 5 节 介 绍 的 基于 转换 的 技术 利用 了 现存 2D 布局 结果 
构建 了 通过 转换 得 到 的 3D 布局 。 

作为 多 种 3D 全 局 布局 技术 的 补充 ， 合 法 化 和 详细 布局 技术 在 3D 布局 过 程 中 
的 特定 联系 在 5.6 节 中 讨论 。 

最 终 ， 给 出 的 实验 数据 展示 了 多 种 3D 布局 技术 对 线 网 长 度 、TSV 数目 和 温度 
的 有 效 性 ， 同 时 展示 了 3D IC 工艺 对 线 网 长 度 和 中 继 噩 使 用 的 影响 。 这 些 实验 数据 
说 明基 于 分 块 的 3D 布局 技术 擅长 TSV 数目 最 小 化 ， 但 不 像 多 层 解 析 技 术 在 可 制造 
更 多 TSV 的 情况 下 对 线 网 长 度 的 优化 那么 有 效 。 对 于 多 层 解 析 布 局 技术 ， 通 过 更 
多 布局 优化 的 层次 可 以 线 网 长 度 增加 为 成 本 实现 更 少 的 TSV 数目 。 最 终 ，RCN JE 
于 图 的 层 指定 过 程 对 TSV 和 热 优化 都 有 效 。 


So HW 
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的 例子 是 热 通 孔 组 成 的 无 源 网 络 ， 其 用 于 热传导 而 不 必 有 承担 任何 电气 功能 。 本 章 从 
热 通 孔 插入 技术 的 总 结 开始 。 接 着 ， 强 调 3D 布线 问题 ， 克 服 了 诸多 挑战 ， 如 传统 
2D 布线 扩展 到 第 三 维度 和 布线 必须 与 热 通 孔 苋 争 稀缺 片上 布线 资源 ， 特 别 是 层 间 
X fL VE UR e 


6.1 介绍 


三 维 集成 技术 将 多 个 有 源 器 件 层 打包 在 一 起 ， 人 允许 在 给 定 尺 寸 内 增加 集成 层 
次 。3D 的 优点 很 多 ， 不 仅 包 括 减 小 互 连 长 度 和 /或 信 浪 时 间 ， 还 包括 系统 性 能 、 功 
耗 、 可 靠 性 和 可 移植 性 的 提升 。 然 而 ，3D 设计 也 在 如 架构 设计 、 热 管理 、 电 源 传 
输 和 物理 设计 领域 引入 了 相当 大 的 挑战 。 

为 实现 3D 系统 的 设计 ， 必 须 开 发 从 现今 2D 系统 转移 到 3D 拓扑 结构 的 CAD 
工具 。 其 中 一 方面 是 拓扑 结构 ， 因 为 线 网 可 以 在 引入 的 第 三 维 布线 (或 创建 防止 
其 他 线 网 布线 的 阻塞 框 )。 严 格 地 说 ，3D 技术 不 能 实现 第 三 维度 上 的 彻底 自由 ， 
因为 允许 的 坐标 与 3D 的 层 数 相关 ， 所 以 被 限制 到 少量 的 可 能 性 上 。 绪 果 ， 在 此 情 
况 下 的 物理 设计 第 被 称 为 相当 于 2.5D 的 问题 。 另 一 方面 则 与 普遍 的 性 能 问题 和 特 
别 的 热 问题 相关 。 

这 两 方面 使 一 个 与 2D IC 设计 流程 大 相 径 寿 的 3D 设计 /CAD 流程 成 为 必须 。 
本 书 的 第 4 章 和 第 5 章 讨论 了 3D 的 布局 规划 和 布局 问题 ， 本 章 特别 关注 有 关 通 过 
互 连 的 使 用 达到 热平衡 和 布线 的 流程 的 问题 。 添 加 热 通 孔 可 以 认为 是 在 布线 前 或 舰 
入 布线 框架 之 中 的 后 布局 步骤 。 本 章 从 将 热 通 孔 插 和 人 到 3D 电路 以 平衡 3D 系统 中 
的 温度 分 布 的 问题 开始 。 随 后 ， 讨 论 同步 布线 和 热 通 孔 定位 的 方法 ， 来 更 好 地 管理 
热 通 孔 引起 的 阻塞 框 。 


6.2 执 通 孔 


3D 电路 中 高 温 的 潜在 可 能 性 有 两 个 根源 : 第 一 ， 来自 于 单位 面积 内 堆 释 的 更 
FWA Di rir FF PT te BON ERIM 5 第 二 ， 来 日 从 器 件 到 封装 以 及 外 部 环境 的 不 适当 
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封装 的 有 效 热 导 率 来 应 对 。 硅 是 良好 的 热 导 体 ， 它 的 热 导 率 是 典型 金属 热 导 率 的 一 
半 甚 至 还 多 , 但 3D 工艺 中 使 用 的 许多 材料 都 是 强 绝缘 体 。 这 些 材料 包括 用 于 键 合 
3D 层 的 外 延 绑 定 材 料 ， 或 场 氧化 物 ， 或 SOI 工艺 中 的 绝缘 体 。 即 使 是 在 最 好 的 分 
布 了 热源 以 控制 片上 温度 的 最 优 布局 解 的 情况 下 ， 这 样 的 热 环境 仍然 严重 限制 了 可 
移 除 热 的 总 量 。 因 此 使 用 预先 准备 的 金属 作为 散热 通道 ， 称 为 “ 热 通 筷 ”， 这 是 总 
的 热 解决 方案 的 重要 因素 。 在 没有 热 通 孔 的 情况 下 ,模拟 显示 3D 必 片 的 片上 峰值 
温度 可 达 约 150°C ; 这 可 以 通过 在 布局 后 的 后 处 理 步 骤 中 插入 合理 的 热 通 孔 来 绥 
解 。 在 理想 3D 工艺 下 ， 这 些 内 部 热 通 孔 的 尺寸 在 一 侧 是 微米 量 级 的 。 图 6-1 示 出 
这 样 的 通 孔 的 实例 。 





图 6-1 3D 层 间 通 孔 的 a) Ami SEM; b) 等 比例 立体 图 © 2006 IEEE 


使 用 热 通 孔 来 优化 热 问 题 的 思想 早 就 在 封装 和 印 制 电路 板 (PCB) 的 设计 中 采 
用 了 。 特 定 的 热 通 孔 插入 对 2D 芯片 不 必要 ， 因 为 体 硅 就 是 很 好 的 热 导 体 。 热 通 孔 
在 3D 领域 里 非常 有 吸引 力 是 因为 热流 浓度 大 且 和 邻接 层 在 很 多 工艺 中 都 被 热 绝缘 材 
料 分 开 。 在 此 情景 下 ， 片 上 热 通 孔 会 在 将 热 导 向 封装 和 热 沉 的 过 程 中 扮演 重要 角 
色 ， 并 降低 片上 温度 。 

在 多 芯片 模块 (MCM) 领域 中 ，Lee 等 人 ”研究 了 热 通 孔 的 排 布 并 发 现 随 着 
热 通 孔 岛 的 增加 ， 更 多 的 热 被 导出 ， 但 也 导致 布线 空间 紧张 。 本 章 参 考 文献 [3] 
研究 了 PCB 和 封装 的 设计 参数 和 热 通 孔 簇 热 阻 的 关系 。 将 通 孔 簇 简化 为 平行 网 络 ， 
使 用 热传导 在 垂直 穿 过 厚度 时 比 水 平 热 扩 散 更 有 效 的 观察 结果 ， 即 可 确定 这 些 关 
系 。Pinjala 等 人 实现 了 封装 中 热 通 孔 的 进一步 热 特 征 提取 “ 。 虽 然 这 些 文章 的 应 
用 领域 限于 芯片 内 部 热 通 孔 的 布局 ， 但 它们 展示 了 热 通 孔 的 基本 使 用 方法 和 特性 。 
重要 的 是 要 注意 到 布线 空间 和 热 消 除 存在 折 中 关系 ， 表 明 热 通 孔 应 保守 使 用 。 热 通 
孔 可 使 用 简化 的 热 计 算 ， 热 传导 的 方向 主要 沿 热 通 孔 的 方向 。Chiang 等 人 建议 在 芯 
片 衬 底 上 使 用 另外 设置 的 热 通 孔 作 为 附加 电气 隔离 通 孔 来 减 小 有 效 热 阻 和 潜在 的 热 
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问题 5] 。 其 他 几 个 更 早 的 文献 强调 直接 将 热 通 孔 集成 到 芯片 内 部 来 减轻 内 部 的 洲 
在 的 热 问题 “" 。 因 为 多 个 电解 质 层 的 隔离 效果 ，3D IC 相 比 2D IC ， 热 问题 更 严重 
并 且 热 通 孔 能 对 其 产生 更 大 的 影响 。 此 外 ， 互 连结 构 能 创建 高 效 的 热电 路 并 有 效 降 
低 芯 片 温度 。 


6.3 ”把 热 通 孔 插入 到 布局 后 的 设计 


在 热 通 孔 把 热 移 到 热 沉 和 外 部 环境 中 起 主要 作用 的 同时 ， 认 识 到 这 些 通 孔 会 引 
入 对 设计 的 限制 也 很 重要 。 这 些 可 以 总 结 如 下 : 

e 第 一 ， 每 个 通 孔 的 接触 PAD 相当 大 ， 先 进 工艺 下 一 般 是 微米 量 级 。 由 于 品 
凤 对 齐 后 实现 容易 的 可 靠 的 连接 的 需要 ， 这 些 定位 上 的 限制 增加 。 

e 第 二 ， 硅 通 孔 在 其 周围 形成 机 械 应 力 ， 意 味 着 在 通 孔 周围 存在 电路 结构 的 
禁止 区 域 。 

e 第 三 ， 热 通 孔 是 布线 的 阻塞 区 域 并 将 引发 拥塞 瓶颈 。 

为 了 管理 这 些 约束 ， 有 必要 加 入 设计 规则 以 保证 芯片 的 某 些 区 域 为 放置 热 通 孔 
预 留 ， 从 而 提供 通 筷 、 阻 塞 区 和 禁止 区 位 置 的 可 预测 性 。 本 章 参 考 文献 [8] 使 用 
了 热 通 孔 区 域 的 概念 ， 如 图 6-2 所 示 ， 即 置 于 两 行 单元 中 间 : 任何 插入 的 通 孔 必须 
置 于 这 些 区 域 ， 尽 管 这 些 通 孔 不 必 都 用 到 。 这 些 布线 阻塞 区 的 密度 在 任 一 特定 区 域 
均 受 限 ， 故 能 保证 设计 不 会 变 得 不 可 布线 。 

热 通 孔 区 域 





图 6-2 用 于 3D IC 含 热 通 孔 区 域 的 热 网 格 


PAPAL (K) 在 任何 特定 方向 均 与 排 布 在 该 方向 的 热 通 孔 密度 相关 。 对 于 
所 有 实际 目的 ，3D IC 中 垂直 热 通 孔 的 加 入 仅 有 助 于 z 轴 向 热 沉 方向 的 热传导 而 水 
平方 回 热 通 孔 对 热传导 的 影响 可 忽略 。 

任何 热 优 化 必须 联系 到 热 分 析 。 本 章 中 ， 我 们 将 使 用 第 3 章 中 介绍 的 技术 重点 
介绍 与 此 处 讨论 密切 相关 的 细节 。 
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从 原理 上 看 ， 放 置 热 通 孔 的 问题 可 视 为 在 芯片 中 可 放置 热 通 孔 的 每 一 可 能 位 置 
上 确定 两 种 热 导 率 (对 应 有 无 金属 ) 之 一 的 问题 。 因 此 ， 实 际 上 容 匈 看 出 这 样 的 
方法 将 引入 随 可 能 位 置 数量 以 指数 级 增加 的 巨大 的 搜索 空间 。 此 外 ， 以 实践 为 出 发 
点 ， 执 行 全 芯片 的 热 分 析 ， 特 别 是 在 优化 器 的 内 部 循环 中 以 独立 热 通 孔 的 粒度 做 热 
分 析 ， 是 非常 不 合理 的 。 在 该 细致 层次 ， 独 立 元 素 将 必须 对 应 到 热 通 孔 的 数目 ， 并 
且 有 限 元 分 析 (FEA) 硬度 矩阵 将 变 得 异 稼 巨大 。 

幸运 的 是 ， 有 合理 的 方法 克服 这 些 问题 。 为 了 控制 PEA 硬度 矩阵 的 大 小 ， 可 
以 使 用 含 元 素数 量 相对 较 大 的 两 层 方 案 ， 其 中 每 个 区 域 的 平均 热 导 率 可 变 。 一 旦 该 
平均 热 导 率 选 定 ， 其 将 被 转换 回 实 现 该 平均 热 导 率 的 元 素 中 的 热 通 孔 的 精确 热 
分 布 。 

本 蕴 参 考 文献 [8] 中 的 步骤 使 用 了 迭代 方法 进行 热 通 孔 插 入 来 控制 3D IC 的 
温度 。 该 步骤 使 用 了 基于 有 限 元 的 热 分 析 方 法 来 计算 片上 温度 并 添加 热 通 孔 以 改变 
必 片 的 热 导 率 ， 从 而 降低 3D 堆 硬 中 的 温度 。 从 初始 配置 开始 ，z 方向 上 的 热 导 率 
逐次 更 新 。 

在 每 次 迭代 中 ， 热 通 孔 区 域 的 热 导 率 被 修正 ， 同 时 这 些 热 导 率 反映 了 需要 在 此 
区 域 中 应 用 的 热 通 孔 的 密度 。 新 的 热 导 率 由 元 素 的 FEA 方程 得 到 。 在 每 次 迭代 中 ， 
特定 元 系 的 热 导 率 通过 加 入 热 通 孔 实现 微 扰 的 引入 。 对 于 每 个 元 素来 说 ， 该 方法 假 
定 通过 其 的 热流 量 在 该 微 扰 下 保持 不 变 ， 即 

K Da = Ko Tew (6-1) 
A, T, 和 K。，q e | old，new| ,分 别 对 应 元 素 硬度 标记 和 元 素 角 落 的 温度 。 基 于 
对 8 点 长 方 体 的 硬度 标志 的 数学 分 析 ， 其 可 表示 为 
了 (6-2) 
式 中 ,ie |x,y，z| ， 并 沿 指定 方向 i; kj, qe |old，new| 是 在 给 定 元 素 中 通 孔 的 
有 效 热 导 率 ; AT7;” 为 对 应 方向 上 的 温度 变化 。 定 义 热 梯度 如 下 
ATT 


q 


gi 7, tetx,y.z}, qe (old, new] (6-3) 


AP, d, 是 元 素 在 i 方向 上 的 尺寸 ， 其 可 化 简 为 
: Aro ea 








EU A AT Qelix,y,] (6-4) 
该 方法 一 个 关键 的 观察 结果 是 在 控制 温度 的 过 程 中 温度 梯度 是 最 重要 的 指标 。 
直观 地 说 ， 中 心思 想 就 是 如 果 一 个 区 域 具有 高 热 梯度 ， 那 么 加 入 热 通 孔 将 有 助 于 改 


善 整个 热 分 布 。 实 际 上 ， 上 层 一 般 比 底层 热 ， 但 在 靠近 热 沉 处 ， 添 加 热 通 孔 可 降低 
底层 的 温度 ， 同 时 能 帮助 减 小 版 图 中 其 他 位 置 的 温度 。 给 定 目标 热 梯度 g ,和 在 前 
一 个 迭代 的 热 梯度 go ， 就 能 在 新 的 迭代 中 使 用 以 下 的 计算 更 新 : 

Le?" | 


new — 8 
Si oe B idol 
B ideal 





| jte {aya (6-5) 
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AF, ae(0, 1) 是 用 户 定义 的 参数 ， 结 合式 (6-4), XX (6-5). 得 到 
new _ old le | dis 
" " =K” E ideal ren (6-0) 
这 在 热 梯 度 大 于 gw 时 减 小 了 大 值 并 反之 增 大 大 值 。 在 本 章 参 考 文献 [8] 中 
定义 了 对 应 的 多 种 目标 函数 选择 gi 的 方式 ， 如 最 大 热 梯 度 、 平 均 热 梯 度 、 最 大 温 
度 、 平 均 温度 、 最 大 热 通 孔 密度 和 平均 热 通 了 筷 密 度 。 
一 旦 使 用 以 上 方法 确定 了 热 导 率 ， 下 一 步 就 是 将 这 些 转换 到 每 个 热 区 域 的 热 通 
孔 密 度 中 。 在 一 个 热 通 孔 区 域 中 的 热 通 孔 量 或 金属 化 的 百分比 m， 也 称 为 热 通 了 筷 密 
度 ， 可 以 由 下 式 表 示 : 
nÀ sia 
~ wh 
式 中 ,nn 为 区 域 中 独立 热 通 孔 的 个 数 ( 显然 受 区 域 容量 的 上 限制 约 ); 4,;, 是 每 个 热 
通 孔 的 纵 切 面 面 积 ; w 是 该 区 域 的 宽度 ; h BIA es BE FA PL A oP Et ASE H 
热 导 率 的 关系 如 下 


(6-7) 


Kemik 4(I-m)K"* (6-8) 
式 中 ，K,, 是 通 孔 材料 的 热 导 率 ; KU 是 该 区 域 不 含 热 通 孔 的 热 导 率 。 使 用 该 公 
式 ， 对 任何 K 热 通 孔 的 百分比 Kl < K" <K,: 
pe. gne 
E. E gue 
在 每 次 迭代 中 ， 新 的 垂直 热 导 率 用 来 计算 热 通 孔 密度 m， 以 及 每 个 热 通 孔 的 水 
平 热 导 率 。 有 效 水 平 热 导 率 Ke 与 Kr" 可 通过 以 下 计算 求 得 : 
"= (1 /m) Ki + in (6-10) 


la ra 
Ky, "E. 


n= 


(6-9) 





整个 过 程 的 虚拟 代码 见 算法 1. 
算法 1: 热 通 孔 布局 〈 目标 函数 ) 


输入 : 在 热 通 孔 区 域 中 热 通 孔 布局 的 目标 也 数 
输出 : 热 通 孔 区 域 的 热 导 率 

将 E ideal IRER Eare 

将 Ks 设 为 它们 的 最 小 值 

计算 温度 分 布 

While 不 收敛 do 

Foreach 热 通 孔 区 域 do 


Eyi K, K, 
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( 续 ) 





计算 温度 分 布 
(E H ER PR ROEI 8 ideal 
计算 热 通 孔 密度 


本 章 参 考 文献 [8] 中 的 技术 已 应 用 于 一 系列 基准 电路 ， 其 中 超过 158000 标 
准 单元 。 仅 消耗 几 分 钟 时 ， 插 和 人 的 热 通 孔 显示 平均 温度 下 降 了 约 30% 。 因 此 ， 热 
通 孔 插入 对 温度 减 小 的 影响 远 远 超过 了 对 热 布局 的 影响 。 

图 6-3 示 出 了 在 热 通 孔 插 入 前 后 ， 基 准 电 路 结构 的 3D 版 图 。 热 图 中 黑色 和 亮 
色 区 域 分 别 代表 热 和 冷 的 区 域 。 与 大 家 猜测 的 不 同 ， 热 通 孔 最 集中 的 位 置 不 在 最 热 
的 区 域 。 这 背后 的 直观 原因 是 : 如 果 我 们 考虑 最 上 层 的 中 心 ， 其 热量 是 因为 其 下 的 
层 处 在 已 提高 的 温度 。 因 此 ， 在 第 二 层 添加 热 通 孔 来 去 除 热量 可 以 有 效 且 显著 地 减 
小 顶层 的 温度 。 由 此 ， 热 通 孔 插入 最 有 效 的 区 域 是 那些 具有 最 高 热 梯 度 的 区 域 。 多 
个 热 目标 的 详细 试验 结果 可 参阅 本 章 参考 文献 【10 ] 。 


pe vos Pecorert 





图 6-3 插入 热 通 孔 前 后 的 结构 热 分 布 ”@@ 2006 IEEE 


本 章 参 考 文献 [11] 的 工作 展示 了 基于 瞬 态 分 析 的 热 通 孔 插 和 方法。 该 方法 
探索 了 电 一 热 二 元 性 以 及 供电 网 格 问题 和 热 问 题 之 间 的 关系 。 类 似 本 章 参 考 文 献 
[12] 中 使 用 的 总 噪声 违反 矩阵 ， 其 取 波形 超过 噪声 阔 值 的 量 对 于 时 间 的 积分 ， 该 
方法 使 用 了 基于 特定 温度 阀 值 的 总 热 违 反 的 积分 。 版 图 分 片 化 为 网 格 ， 优 化 约束 为 
每 个 网 格 片 中 用 于 热 通 孔 插入 的 现存 空间 的 量 和 热 通 孔 区 域 的 总 量 ， 但 其 中 并 没有 
明确 解释 为 什么 两 个 约束 都 是 必要 的 原因 。 使 用 模型 降 阶 技术 作为 仿真 引擎 ， 使 用 
顺序 二 次 编程 求解 优化 问题 。 

本 草 参 考 文献 [13] 中 的 后 续 工作 使 用 电源 网 格 来 传导 热 并 通过 确定 插入 
TSV 的 位 置 来 优化 电源 网 格 ， 进 而 保证 同时 满足 电压 降 约束 和 温度 约束 。 如 上 述 研 
究 工 作 所 述 ， 版 图 分 片 化 为 小 片 ， 计 算 每 片 的 通 孔 密度 。 


6.4 布线 算法 
一 旦 单元 已 经 布局 完毕 并 且 热 通 孔 的 位 置 也 确定 ， 布 线 阶段 就 需要 找到 线 网 间 
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的 最 优 互 连 。 在 2D 布线 中 ， 优 化 线 网 长 度 、 延 人 返 和 拥塞 很 重要 。 男 外 存在 着 一 些 
关于 3D 特定 的 问题 。 首 先 ， 线 网 的 延迟 随 其 温度 增加 ， 导 致 更 多 的 关键 线 网 应 该 
尽 可 能 地 避 开 最 热 的 区 域 。 第 二 ， 层 间 通 孔 是 珍贵 的 资源 ， 必 须 最 优 地 分 配给 线 
网 。 第 三 ， 由 于 第 三 维度 的 加 入 ， 拥 塞 管理 和 阻塞 框 避 开 变 得 更 加 复杂 。 人 例如， 一 
个 穿 过 两 器 件 层 或 多 需 件 层 的 信号 通 孔 或 热 通 孔 是 布线 必须 比 开 的 阻塞 框 。 

通过 探索 在 线 网 的 绑 定 盒子 中 确定 准确 布线 的 可 行 的 灵活 布线 ， 以 上 所 有 问题 
均 可 得 到 解决 。 当 线 网 长 度 的 增加 可 改善 延迟 、 拥 塞 或 提供 层 间 通 孔 指定 的 更 多 灵 
活性 时 ， 甚 至 可 以 考虑 在 绑 定 盒子 之 外 进行 迁 回 布线 。 

考虑 如 图 6-4 所 示 的 三 层 工艺 的 布线 问题 。 版 图 网 格 化 为 矩形 方块 ， 每 个 矩形 
方块 具有 水 平和 垂直 容量 。 该 水 平 容量 决定 了 可 通过 该 方块 的 线 网 数 ， 而 层 间 通 孔 
容量 决定 了 在 该 方块 中 可 行 的 自由 通 孔 数 。 这 些 容 量 不 但 是 可 分 配给 非 信 号 线 网 
(如 电源 和 时 钟 线 网 ) 的 资源 也 是 热 通 孔 使 用 的 资源 。 如 图 中 所 示 ， 对 于 一 个 单线 
网 ， 可 用 的 自由 度 包 含 在 选择 层 间 通 孔 位 置 的 过 程 和 选择 每 层 中 的 精确 路 径 的 过 程 
中 。 层 间 通 和 孔 的 位 置 将 依赖 于 在 每 个 方 格 中 资源 的 争夺 情况 。 此 外 ， 关 键 线 网 需要 
尽 可 能 避免 高 温 方块 。 





图 6-4 在 三 层 3D IC 工艺 下 对 一 个 线 网 布线 的 示例 “|@ 2005 IEEE 


执行 布线 的 基本 网 格 图 ， 在 拓展 到 三 维 时 ， 与 标准 的 2D 布线 网 格 类 似 。 每 器 
件 层 都 棋盘 格 化 为 2D 网 格 ， 包 含 对 应 网 格 的 顶点 、 相 邻 网 格 间 的 边 ， 以 及 对 应 网 
格 边缘 容量 的 权重 。 相 邻 器 件 层 顶 点 的 互 连 对 应 这 些 位置 可 用 的 层 间 通 孔 百分比 。 


6.4.1 多 层 方 式 


本 曹参 考 文献 [15] 中 的 工作 给 出 了 带 有 热 通 孔 插入 的 3D 布线 的 初始 化 方 
法 ， 随 后 在 本 章 参 考 文献 [16] 中 该 方法 改进 得 更 加 精细 化 。 这 两 种 方法 取决 于 
多 层 布线 架构 的 顶部 ， 与 本 章 参 考 文献 [17] 类 似 。 本 多 层 架 构 的 阶段 包括 递归 
粗 化 、 初 始 解 生成 和 逐 层 精 细 化 ， 如 图 6-5 所 示 。TSV 的 分 配 首 先 在 最 粗 的 层次 执 
行 ， 而 后 在 更 精细 的 层次 逐步 执行 。 

本 草 参 考 文献 [15] 使 用 了 本 章 参考 文献 [18] 的 紧凑 热 阻 模型 ， 即 本 质 上 
395 3 草 使 用 的 热 阻 模型 相同 。 该 方法 的 中 心思 想 是 通过 两 个 步骤 间 和 迭代 来 确定 热 
通 孔 和 信号 通 孔 的 数量 。 在 两 层 间 给 定 网 格 中 的 热 通 孔 分 布 使 用 简单 的 试探 法 ， 在 
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图 6-5 包含 TSV 规划 的 多 层 布 线 框 图 … ( 2005 IEEE 


这 过 程 中 选择 与 这 两 个 网 格 温度 差 成 比例 的 数目 。 在 多 层 布 线 中 每 个 层次 的 信号 通 
孔 的 插入 都 使 用 以 下 流程 图 描述 的 过 程 执行 。 

在 多 层 方法 的 每 屋 ， 即 在 多 层 结 构 的 k-1 层 ， 层 间 通 孔 规 划 问 题 将 给 定 区 域 
中 的 通 孔 指定 到 第 左 层 的 网 格 方块 。 该 问 
题 可 建 模 为 最 小 成 本 流 加 问题， 其 具有 
运输 问题 的 形式 。 图 6-6 中 的 流程 图 的 
构成 如 下 : 

1) 流程 图 的 源 节 点 通过 有 问 边 连接 
到 代表 候选 通 孔 的 一 系列 节点 N;; 其 边 
具有 单位 容量 和 零 成 本 。 

2) 有 回 边 连接 第 二 套 节 点 C, M 
AME POH Tr REN ROU A. FUB OSA 。 图 6-6 对 信号 层 间 通 孔 规划 的 网 络 
方块 能 容纳 的 通 孔 数 相 同 的 容量 ， 成 本 流程 模型 !51@ 2005 IEEE 
为 去 。 容 量 使 用 考虑 了 方块 和 直接 在 其 
下 需 件 层 的 块 之 间 温 度 差 的 试探 法 计算 得 到 (假定 热 直接 向 下 流向 热 沉 ) 。 

3) 热源 [ 热 沉 ] 具有 供应 [需求 ] mm， 其 等 于 在 整个 区 域 中 的 层 间 通 孔 数 。 

4) 市 点 N, 通过 有 限 容 量 的 弧 连接 到 方块 C;， 其 成 本 等 于 将 层 间 通 孔 N; 指定 
到 方块 C, 的 估算 的 线 网 长 度 。 

本 章 参 考 文献 [16] 中 该 工作 的 扩展 也 还 是 基于 图 6-5 的 多 层 布 线 架 构 。 在 
该 方法 中 ， 通 了 筷 规 划 方 法 得 到 了 改进 ， 通 过 使 用 称 为 替换 方向 TSV 规划 ( ADVP) 
的 方法 。 该 方法 也 假定 热流 的 主要 方 加 为 垂直 方向 。 其 引入 了 对 TSV 插入 的 非 线 
性 程序 建 模 ， 但 这 确实 太 过 昂贵 ， 仪 在 文献 中 用 作对 照 分 析 。 提 出 的 主 引 擎 是 迭代 
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的 两 步 松弛 化 。 首 先 ，TSYV 的 位 置 (x, y) 固定 并 且 其 z 方 向 的 分 布 是 确定 的 。 央 
此 为 该 垂直 方向 开发 了 Elmore 延迟 类 热 估 计 模 型 ， 并 且 TSV 的 分 布 基于 理论 计算 
的 结果 。 然 而 ， 该 结果 假设 TSV 的 数目 是 无 限制 的 ， 与 实际 情况 不 待 。 随 后 ， 这 些 
通 孔 根据 每 个 方块 的 垂直 热流 量 在 器 件 层 间 水 平移 动 。 这 两 步 和 迭代 直到 得 出 解 。 


6.4.2 使 用 线性 编程 的 两 段 万 法 


本 章 参考 文献 [20] 提出 了 一 种 在 创建 导热 网 络 的 同时 满足 拥塞 约束 的 热 敏 
感 布线 方法 。 该 方法 通过 热 通 孔 和 热线 网 的 合理 插入 ， 生 成 了 不 会 出 现 热 问题 和 布 
线 容量 违反 的 路 径 解 ， 从 而 有 效 地 减 小 了 片上 温度 。 像 前 面 定 义 的 ， 热 通 孔 对 应 那 
些 不 具有 任何 电气 功能 但 明确 作为 热 通路 加 入 的 层 间 通 孔 。 热 线 网 则 在 本 曹参 考 文 
MA [20] 中 定义 为 在 同一 层 内 具有 类 似 功能 但 水 平 导热 的 线 网 ， 其 在 水 平 热传导 
上 非常 有 用 (例如 在 相 邻 副 件 层 被 绝 绿 层 分 开 ， 热 通 孔 受 限 的 情况 下 )。 热 通 孔 执 
行 传 导 到 热 沉 的 主要 工作 ， 而 热线 网 帮助 在 多 个 热 通 孔 间 分 布 热 路 径 。 

图 6-7 未 出 了 层 间 通 孔 如 何 减 小 相 邻 水 平 布线 边 的 布线 量 。 如 果 V, x V, 个 层 
间 通 孔 通 过 网 格 单元 i 并 且 万 x 万 个 层 间 通 孔 通过 相 邻 的 网 格 单元 ]， 那 么 边 ej; 的 
信号 布线 量 将 比 初始 的 容量 C. 有 所 减 小 ， 并 且 信 号 线 网 使 用 下. 需要 满足 





层 间 通 孔 


图 6-7 由 TSV 在 相 邻 网 格 而 减 小 的 横向 布线 量 ; 热线 网 集 
总 并 与 热 通 孔 形成 散热 网 络 © 2006 IEEE 


W, zmin( C, 一 下 * w,C, —v; + w) (6-11) 
UP, w 为 层 间 通 孔 的 几何 宽度 。 这 里 ， 两 个 减 小 的 布线 宽度 中 较 小 的 一 个 定义 为 
减 小 的 边 容量 ,这样 就 可 以 实现 全 局 布线 结果 到 详细 布线 解 的 灵活 转换 。 另 一 方 
面 ， 给 定 布线 边 的 实际 信号 线 网 使 用 WW.,， 式 (6-11) 也 可 以 用 来 确定 可 通过 相 邻 
网 格 单元 的 层 间 通 孔 数 目 ， 从 而 不 会 在 布线 边 出 现 溢出 。 由 于 减 小 温度 需要 插入 大 
量 的 热 通 和 孔 ， 为 同时 满足 温度 和 可 布线 要 求 必须 仔细 规划 。 
一 个 简单 的 改善 水 平 热传导 的 方式 是 识别 出 信号 线 网 没有 使 用 全 部 布线 路 径 的 
布线 边 。 剩 余 的 布线 通道 就 可 以 用 热线 网 来 连接 临近 网 格 单元 中 的 热 通 孔 。 这 些 线 
网 被 直接 连接 到 热 通 和 孔 上 以 形成 高 效 的 热 耗 散 网 络 ， 如 图 6-7 所 示 。 热 线 网 使 水 平 
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方向 的 热传导 成 为 可 能 并 有 助 于 垂直 的 热 通 孔 有 效 地 降低 热点 温度 : 对 于 仅 可 添加 
有 限 数目 热 通 孔 的 热点 ， 热 线 网 可 用 于 水 平 传导 热量 并 通过 临近 网 格 中 的 热 通 孔 去 

然而 ， 将 热线 网 或 热 通 孔 的 延 时 添加 到 后 布线 后 处 理 步 又 ， 仅 使 用 布线 后 未 使 
用 的 剩余 资源 显然 不 是 最 优 的。 在 理想 情况 下 ， 这 些 应 该 在 布线 过 程 中 分 配 。 也 就 
是 说 ， 由 于 热 通 孔 和 线 网 与 信号 线 和 通 孔 争夺 布线 资源 ， 它 们 必须 规划 好 来 满足 温 
度 和 可 布线 度 的 要 求 。 本 章 参考 文献 [20] 的 方法 提供 了 实现 这 一 目标 的 方法 。 

本 章 参 考 文献 [20] 中 的 全 局 布线 分 为 两 段 ， 其 整体 流程 见 图 6-8。 算 法 的 输 
入 为 给 定 电源 分 布 棋盘 化 的 3D 电路 。 算 法 分 两 段 进 行 ， 第 一 段 根据 流程 图 的 前 三 
块 ， 第 二 段 由 迭代 循环 表示 。 实 际 上 ， 观 察 结果 表 明 该 循环 能 在 较 少 次 的 迭代 后 就 
收敛 到 优化 解 。 







3D MST 和 布线 拥塞 估计 
信号 层 间 通 孔 指定 
2D 迷 宫 布 线 以 得 到 初始 布线 解 有 无 拥塞 和 热 违 反 ? 






无 或 有 无 进一步 改善 ? 
评估 温度 并 进行 热点 敏感 度 分 析 








基于 LP 的 热 通 孔 和 热线 网 插入 有 
布置 热 通 孔 开 进 行 线 网 搬入 
C 打 散 并 重新 布线 ) 
ao 


图 6-8 热 敏 感 3D 全 局 布线 算法 整体 流程 ”@ 2006 IEEE 


第 一 段 从 最 小 生成 树 (MST) 生成 和 布线 拥塞 估计 步骤 开始 。 随 后 ， 使 用 试探 
法 网 络 基于 流程 的 公式 指定 信号 层 间 通 孔 。 一 旦 这 些 层 间 通 孔 被 指定 ， 问 题 就 缩小 
SIRE TE BU 2D 问题 。 于 是 热 驱动 2D 迷宫 布线 器 用 来 分 别 解 每 器 件 层 的 问题 。 
沪 布 线 融 在 标准 迷宫 布线 成 本 盟 数 中 加 入 附加 的 温度 项 。 

之 后 ， 第 二 段 执行 是 包括 向 上 跳 重 布线 和 基于 LP 的 热 通 孔 / 线 网 插入 的 迭代 
布线 过 程 。 对 于 每 个 了 > Tw,，i=1,，2,…, n 的 nn 个 温度 违反 热点 ， 执 行 快速 
JU DR ABUSE SPAT OR KB T, 的 灵敏 度 与 在 每 个 热 通 孔 位 置 的 热 通 孔 数 量 的 关系 。 如 
果 灵 人 敏 度 值 超过 一 个 位 置 的 阔 值 ， 如 5, ;大 5,,， 那 么 该 位 置 j 就 是 热 通 孔 插 入 的 候 
选 位 置 。 与 此 类 似 ， 可 定义 候选 热线 网 位 置 ， 并 同时 获得 它们 的 灵敏 度 S, ,。 

使 用 基于 该 灵敏 度 的 线性 模型 编写 了 一 个 用 来 插入 热 通 孔 和 热线 网 的 线性 程序 
从 而 实现 温度 的 小 幅 优 化 (与 基于 灵敏 度 模 型 的 范围 一 致 )。 布 线 容量 的 小 违反 在 
此 阶段 是 允许 的 ， 在 认为 它 可 在 拆 线 重 排 步 又 得 到 修正 的 理解 的 情况 下 。 

令 N,, 为 在 候选 位 置 7 插入 的 热 通 孔 的 数量 ，N。 ,为 在 候选 位 置 上 搬入 的 热线 网 
的 数量 ， 那 么 热点 i 的 温度 可 降低 AT,, LP 公式 如 下 : 
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p q n 
最 小 化 YN + VN TDG (6-12) 
j=l bl iz] 
p q 
条 件 为 : Y, x Si No, T » n SP, MP T Ô; => AT; 
j=l k=l 
alt= AT = f= foe (6-13) 
N ,&min( (1 - 8) R,;j,U, - V) j 21,2,*,p (6-14) 
N, , SC *B)R,,,k-1,2,:,q (6-15) 


5,50, 21,2, N20 IIT. EV NLA 20 Kal 2 ,***,2 (6-16) 

最 小 化 了 总 热 通 孔 和 热线 网 的 目标 函数 与 布线 拥塞 缩减 的 目标 一 致 。 为 保证 该 
问题 可 解 ， 引 入 松弛 化 变量 8,,i=1，2，…，ms。 常数 工 在 所 有 迭代 中 一 致 并 选 为 
足够 大 ， 以 在 热 通 孔 和 热线 网 资源 在 式 (6-14) 和 式 (6-15) 的 约束 中 足够 按 需 
要 降低 温度 时 压制 6; EL BUA 

IÈ (6-13) 需要 在 热点 i 的 温度 减 小 量 加 上 松弛 化 变量 6; (引入 以 保证 问题 
可 解 )， 在 本 次 迭代 中 至 少 为 A7T,， 其 中 AT, 为 当前 温度 T, 和 目标 温度 T, HO 
25 fH e 

3X (6-14) 和 式 (6-15) 分 别 与 热 通 孔 和 热线 网 的 容量 约束 相关 。 分 别 基 于 
水 平 边 界 容量 在 同 需 件 层 的 溢出 和 蜂 层 的 层 间 通 孔 容量 的 洲 出 。 式 (6-14) 设置 了 
热 通 孔 插入 数量 的 上 限 N,;， 含 两 个 约束 系数 。R, ,是 可 插入 在 j 位 置 而 不 引发 在 相 
邻 边 上 的 水 平 布线 溢出 的 最 大 附加 热 通 孔 数 ， 可 通过 RS; =v -vu ,计算 。 其 中 
vj 是 位 置 7 的 当前 层 间 通 孔 使 用 数 而 wv 是 可 被 插入 在 位 置 j 并 且 不 产生 水 平 溢出 
的 最 大 层 间 通 孔 数 。 在 最 敏感 的 位 置 添加 更 多 的 层 间 通 孔 对 温度 挥 减 的 影响 很 大 ， 
因而 ， 约 束 被 有 意 地 放大 了 8 倍 以 临时 允许 该 约束 的 违反 ， 但 这 也 将 允许 更 好 的 温 
度 缩减 。 这 将 潜在 地 导致 热 通 孔 指定 后 的 水 平 布线 溢出 ， 但 该 溢出 可 通过 向 上 跳 重 
布线 阶段 解决 。 

对 N, 的 第 二 个 限制 因素 是 总 层 间 通 孔 的 使 用 不 能 超过 U, JEP U, 为 位 置 j 的 
JAVA FLA, 并 且 约 束 公式 取 两 个 限制 因 系 的 最 小 值 。 类 似 地 , SX (6-15) 考 
虑 到 水 平 布线 溢出 ,设置 了 热线 网 插入 数目 的 限制 。R, ;是 不 引发 水 平 布线 溢出 的 
条 件 下 在 位 置 k 能 插入 的 最 大 附加 热线 网 数 。 计 算 方 法 为 Ro, =m, -mi ,, FEA 
ms 4 是 位 置 k 的 当前 热线 网 使 用 数 ，m 为 位 置 k 不 引发 水 平 溢出 的 最 大 热线 网 
数 。 同 样 出 于 鼓励 温度 降低 的 考虑 ， 及 ,通过 系数 B 松弛 化 ， 任 何 潜在 的 洲 出 将 在 
加 上 跳 重 布线 的 布线 阶段 处 理 。 

该 方法 的 详细 实验 结果 见 本 章 参考 文献 [20 ]。 共 生成 了 4 套 结 果 : (采用 上 
述 温度 敏感 布线 算法 的 温度 敏感 布线 (TA); 中 使 用 上 述 一 阶段 方法 的 后 插入 布线 
(P) ， 但 随后 将 热 通 孔 和 热线 网 插入 所 有 现存 空间 ; @ 仅 热 通 孔 (V), BERI EXE 
方法 但 仅 使 用 热 通 孔 而 不 使 用 热线 网 ; 由 一 臻 通 孔 插入 〈U) ， 其 使 用 与 TA 相同 
数目 的 热 通 孔 和 热线 网 但 将 其 均匀 分 布 在 整个 版 图 区 域 。 图 6-9 中 的 试验 结果 显 
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m, 与 TA 相 比 , P、V 和 都 具有 明显 高 得 多 的 峰值 温度 。 虽 然 U 方案 看 起 来 具 
有 与 TA 相似 的 热 分 布 ， 但 因 这 种 情况 导致 了 大 量 的 布线 溢出 ， 所 以 不 是 合法 的 解 
决 方案 。TA 的 线 网 长 度 成 本 仅 比 可 视 为 非 热 敏感 布线 的 P 稍 高 。 
峰值 电路 温度 比较 
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图 6-9 布线 结果 比较 


本 曹 介绍 了 3D IC 中 布线 和 热 通 孔 插入 的 多 种 方法 。 由 于 这 两 个 问题 竞争 相同 
的 有 限 片 上 互 连 资源 ， 所 以 它们 是 相关 的 。 这 些 布线 资源 的 合理 管理 能 提供 热 分 布 
在 保持 可 布线 性 基础 上 的 显著 改善 。 


so p 
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学 洛杉矶 分 校 的 小 组 ， 他 们 的 工作 对 本 章 的 内 容 做 出 了 显著 贡献 。 
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3D 集成 电路 为 计算 机 体系 结构 的 创新 发 展 提供 了 令 人 振奋 的 机 遇 。3D 集成 电 
路 技术 可 以 应 用 到 很 多 微 处 理 器 设计 的 潜在 领域 。 本 章 我 们 将 讨论 一 种 设计 方法 ， 
怎样 重 排 一 个 传统 的 2D 微 处 理 器 的 模块 ， 使 其 精确 地 摆 放 在 多 个 晶 圆 层 中 。 本 章 
还 讨论 了 不 同 的 技术 ， 以 及 折 中 方案 ， 即 面 对 芯 片 - 芯片 通信 资源 受 限 的 情况 ， 什 
么 样 的 计算 机 架构 可 以 有 效 地 解决 这 一 问题 。3D 集成 电路 提供 了 许多 方法 来 减少 
微 处 理 器 内 的 互 连 线 ， 本 章 还 讨论 了 更 高 层 的 设计 方法 ， 即 怎样 将 互 连 线 的 减少 转 
化 成 性 能 和 功 耗 优势 。 


7.1 介绍 


3D 集成 电路 为 微 处 理 器 的 设计 (或 重 设 计 ) 提供 了 新 的 机 遇 。 虽 然 本 章 的 重 
点 是 高 性 能 处 理 器 ， 大 部 分 的 概念 和 技术 可 以 应 用 到 其 他 相关 领域 ， 如 仍 人 却 处 理 
器 。 本 章 的 重点 是 通用 的 设计 方法 和 3D 处 理 器 的 架构 。 就 未 来 的 3D Ab RU. 
利用 这 种 技术 的 最 佳 途径 取决 于 许多 因素 ， 包 括 制造 技术 如 何 发 展 、 散 热 和 封 交 拉 
术 的 进步 、 性 能 要 求 、 功 耗 约束 、 工 程 局 限 以 及 其 他 问题 。 随 着 3D AIARRA AY 
发 展 和 成 熟 ， 本 章 中 描述 的 技术 为 多 种 技术 的 组 合 。 

本 章 内 容 按 照 年 代 顺 序 进行 。 我 们 首先 探索 3D 处 理 右 设计 的 简单 模式 ， 即 堆 
释 较 大 的 模块 〈 如 整个 核 ) ， 因 此 ， 只 需要 对 传统 的 2D 结构 进行 较 小 的 改变 。 然 
后 ， 我 们 考虑 堆 礁 处 理 顺 的 内 部 模块 〈 例 如 ， AAE, ALU) 为 3D 结构 ， 这 就 
具有 了 更 大 的 灵活 性 和 更 高 的 优化 途径 。 最 后 ， 我 们 研究 更 加 深入 的 3D HER, B 
处 理 器 内 部 的 单个 模块 也 可 以 打 散 ， 人 逻辑 单元 和 互 连 线 可 以 置 于 不 同 的 层 中 。 表 
7-1 详细 介绍 了 不 同 层次 堆 炙 的 得 与 失 。 


表 7-1 在 不 同 的 粒度 3D MESE A) Fl ERT IA 


堆 全 粒度 潜在 益处 重 设计 需要 努力 
新 增 的 功能 ， 更 多 的 晶体 管 ， 
个 , BR : 现 有 的 2D ixi 
整个 内 核 ， 缓 存 混合 工艺 集成 低 : 重用 现 有 的 2D 设计 


减少 的 全 局 布线 的 延迟 和 功 耗 ， 必须 重新 布局 规划 和 重 定时 的 
降低 了 功 耗 的 同时 提高 了 性 能 路 径 


需要 3D 块 级 布局 布线 工具 可 减少 现存 的 2D 块 逻辑 门 〈 块 分 裂 ) 


功能 单元 块 
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( 续 ) 
重 设计 需要 努力 
需要 新 的 3D 电路 设计 、 设 计 
方法 和 版 图 工具 
重用 现 有 的 2D 标准 单元 库 


ME Fe BL JE 


全 局 、 半 全 局 和 本 地 布线 中 减 紧凑 的 块 大 小 和 重 定 义 尺 寸 机 
少 的 延迟 / 功 耗 会 带 来 的 进一步 面积 减 小 





未 来 在 大 众 消费 市 场 ， 量 产 3D 集成 电路 的 具体 技术 细节 尚未 知晓 。 但 我 们 已 
经 对 什么 技术 可 行 ， 还 是 有 把 握 的 ， 但 经 济 学 、 市 场 需求 以 及 其 他 非 技 术 因素 可 能 
影响 这 项 技术 的 未 来 发 展 。 也 许 是 最 重要 的 技术 参数 是 必 片 - 必 片 穿 透 硅 的 通 孔 斥 
才 大 小 。 在 很 小 的 硅 通 孔 间 中 下， 处 理 带 可 以 打 散 成 更 小 的 单元 。 如 果 硅 通 孔 的 间 
距 很 大 ，3D 集成 可 能 只 能 限制 在 模块 级 ， 甚 至 核 级 。 在 本 草 的 其 余部 分 ， 我 们 将 
重 温 硅 通 孔 的 太 才 是 怎样 影 啊 设 计 的 ， 并 且 在 许多 情况 下 ， 讨 论 如何 能 够 绕 过 这 些 
限制 进行 可 行 的 设计 。 


7.2 ESTERA 


虽然 3D 微 处 理 带 将 来 最 终 可 能 实现 堆 硬 更 加 微小 的 单元 ， 如 功能 单元 、 互 连 
线 和 逻辑 门 等 ,但 3D 集成 方案 的 近期 目标 会 简单 得 多 。 

从 3D 集成 电路 技术 的 出 现 到 大 规模 制造 工厂 的 建立 ， 已 经 引起 了 一 些 显著 的 
技术 风险 ， 因 此 在 设计 的 其 他 领域 的 风险 〈 即 处 理 器 架构 ) 应 尽量 减少 。 考 虑 到 
这 一 点 ， 对 于 3D 堆 秋 的 最 简单 的 应 用 ， 应 该 是 借用 现 有 的 2D 设计 方法 。 在 本 节 
中 ， 我 们 将 探讨 3 种 通用 的 方法 : 扩大 缓存 层次 结构 、 使 用 3D 集成 提供 可 选 功 
能 ， 以 及 系统 级 集成 。 


7.2.1 三 维 堆 又 式 缓存 


避免 任何 3D 集成 中 涉及 复杂 单元 的 重新 设计 (如 完整 的 处 理 器 流水 线 )。 用 
最 简单 的 方法 集成 更 多 晶体 管 的 方式 以 增加 更 多 的 缓存 和 /或 增加 更 多 的 内 核 。 

即使 是 利用 3D 集成 增加 缓存 容量 这 样 一 个 简单 的 想法 ， 对 于 构建 3D MEAS 
构 的 二 级 (L2) 缓存 仍然 存在 用 于 几 种 设计 方案 。 图 7-1a 说 明了 传统 的 双核 处 
理 带 配备 了 4MB 的 二 级 缓存 。 由 于 二 级 缓存 占用 大 约 一 半 的 芯片 面积 ， 堆 蚕 硅 第 
二 层 心 片 相当 于 增加 了 额外 的 8MB 缓存 ， 总 共有 12MB 的 缓存 ， 如 图 7-1b 所 示 。 
注意 ， 从 底层 二 级 控制 器 所 在 的 芯片 中 心 ， 到 不 同方 向 的 最 远 的 单元 的 距离 大 致 相 
同 。 当 硅 通 孔 的 延迟 很 小 的 时 候 ，3D 结构 的 变化 对 二 级 缓存 的 延迟 几乎 没有 影响 。 
相反 ， 如 果 一 个 12MB 的 缓存 利用 传统 的 2D 技术 ， 如 图 7-1c 所 示 ， 在 最 坏 情 况 
下 ， 必 然 会 增加 布线 距离 ， 从 而 增加 了 缓存 的 延迟 。 

MEA 3D 集成 技术 中 唱 圆 堆 炙 或 芯片 堆 秋 方 法 的 出 现 ， 各 个 堆 复 的 硅 片 层 都 是 
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+8MB SRAM 







二 级 缓存 
控制 器 


12MB SRAM 
二 级 缓存 


C) 


图 7-1 a) 常规 2D 与 L2 RAM MAHA; b) BEZ MB 相同 处 理 需 的 增加 ， 即 在 3D 
组 合 中 更 多 的 二 级 缓存 ; c) 对 于 文 持 整体 12MB 的 二 级 缓存 等 效 2D 布局 


在 键 合 之 前 制造 的 。 这 就 要 求 各 个 堆 笃 的 硅 片 的 制造 工艺 不 必 相 同 。 男 一 种 实现 
3D 结构 大 容量 缓存 的 方式 是 应 用 DRAM 代替 传统 的 逻辑 /CMOS 电路 。 基 于 DRAM 
的 存储 器 比 基 于 SRAM 的 存储 器 具有 更 大 的 存储 密度 (bits/em )， 因 此 利用 
DRAM 实现 缓存 ， 在 相同 的 芯片 面积 上 可 以 提供 更 大 的 存储 容量 。 图 7-2a 示 出 了 
同一 双核 处 理 器 中 ， 基 于 SRAM 的 二 级 缓存 已 经 被 完全 去 除 ， 取 而 代 之 的 是 堆 春 
在 芯片 顶端 的 基于 DRAM 的 32MB 二 级 缓存 。 

DRAM ASHER IDI ME BYES SRAM 相 比 可 以 提供 更 多 的 片上 存储 容量 , 但 
DRAM 的 访问 延迟 要 比 SRAM 大 得 多 。SRAM 绥 存 具有 10 ~ 20 个 周期 的 存 取 延迟 ， 
而 DRAM 缓存 需 要 50 ~ 150 周期 (取决 于 行 缓冲 需 的 命中 、 预 充电 延迟 和 其 他 内 
存 参数 ) 。 考 虑 表 7-2 所 示 的 3 个 假设 的 应 用 。 方 案 A 工作 集 较 小 ， 适 合 应 用 4MB 
SRAM 缓存 。 方 案 B 有 一 个 较 大 的 工作 集 ， 不 适合 应 用 4MB SRAM 缓存 ， 但 适合 
应 用 32MB DRAM 缓存。 方案 C 为 存储 访问 模式 ， 对 DRAM All SRAM 都 具有 很 差 
的 绥 存 命中 概率 。 例 如 ， 对 于 方案 A，DRAM 和 SRAM 都 具有 很 低 的 缺失 率 ， 但 
SRAM 绥 存 较 小 的 延迟 需要 更 少 的 单 次 访问 周期 (CPMA ) 。 方 案 B 的 工作 集 较 大 ， 
SRAM 缓存 产生 一 个 非常 大 的 缺失 率 ， 导 致 了 较 高 的 CPMA。 而 DRAM 缓存 仍然 比 
SRAM 缓存 具有 更 大 的 访问 延迟 ， 但 与 基于 DRAM 的 片 外 内 存 相 比 ， 这 仍然 显著 减 
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64MB DRAM 
二 级 缓存 
( 仅 数据 ) 


内 核 0 





[d 7-2 a) HER 32MB DRAM 的 二 级 缓存 ; b) 5 SRAM 标签 和 3D 
HE DRAM 的 数据 的 混合 型 组 合 


少 了 访问 延迟 。 其 结果 是 ，DRAM 缓存 在 方案 B 中 提供 了 较 小 的 CPMA。 对 于 方案 
C, SRAM 缓存 和 DRAM 缓存 都 没有 很 高 的 命中 率 ，CMPA 由 决定 缓存 缺失 率 的 访 
问 延 迟 控制 。 此 时 ，SRAM 具有 更 少 的 访问 延迟 ， 再 次 实现 较 低 的 CPMA。3D Æ 
成 二 级 缓存 的 最 佳 情 况 取决 于 具体 的 目标 应 用 ， 即 处 理 融 负载 的 工作 量 。 

前 面 的 例子 表明 ， 缓 存 的 命中 和 缺失 的 延迟 依赖 于 底层 应 用 程序 对 存储 需 的 访 
问 模式 。 第 3 个 方案 结合 了 SRAM 和 DRAM, 设计 了 一 个 混合 型 缓存 结构 ， 如 
图 7-2b 所 示 。 底 层 世 片 为 SRAM 陈列 ， 只 用 来 存储 二 级 缓存 的 标签 。 顶 层 心 片 使 
用 DRAM 来 存储 实际 的 缓存 数据 。 在 访问 缓存 的 过 程 中 ，SRAM 标签 可 以 迅速 地 提 
供 命中 /缺失 指示 。 如 果 访 问 结 果 为 缺失 ,经 SRAM 查找 后 ， 请 求 发 送 到 片 外 存储 
器 的 控制 器 ， 访 问 片 外 存储 器 。 这 与 由 纯 DRAM 组 成 的 存储 器 不 同 ， 纯 DRAM 组 
成 的 存储 需 不 管 是 命中 还 是 缺失 ， 访 问 速度 都 较 慢 。 在 表 7-2 中 的 最 后 一 行 示 出 了 
这 种 混合 SRAM- 标 签 /DRAM- 数 据 设 计 与 纯 DRAM 相 比 在 执行 三 个 不 同 程序 时 ， 
是 如 何 提高 CPMA 指标 的 。 

表 7-2 对 于 不 同 缓存 配置 的 访问 延迟 ，3 个 不 同方 案 的 命中 和 未 命中 的 数量 ， 假 设 一 个 500 
循环 主 存储 器 延迟 每 个 存储 器 访问 的 平均 周期 (CPMA) 。 对 于 这 个 例子 忽略 这 一 级 缓存 


—" 级 延迟 方案 A 方案 B 方案 C 


2D/4MB( SRAM) 


Dew. ERE | 
wamran | is [1 | om | | 65 «o | wo [ce | o | so [ase 
3D/32MB( DRAM) 400 | 100 | 880 
3D/64MB(hybria) | 100 | 16 | E 
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3D 堆 春 利用 短 的 ， 延 迟 较 小 的 互 连 线 ， 实 现 了 未 级 大 容量 缓存 直接 放置 于 处 
理 器 核 的 顶部 。 另 外 ， 由 于 该 互 连 接口 并 不 需要 IO 压 焊 块 ， 不 占用 额外 的 版 图 面 
积 ， 利 用 相对 要 小 得 多 的 硅 通 孔 就 可 以 实现 一 个 很 大 的 缓存 接口 。 接 口 的 预期 宽度 
为 缓存 的 数据 宽度 加 上 相关 地 址 和 控制 位 。 例 如 ， 一 个 64 字 节 宽 的 缓存 ， 需 要 一 
个 512 位 的 数据 总 线 加 几 十 位 的 块 物理 地 址 和 命令 /控制 信号 。 为 了 使 信号 传递 更 
加 容易 ， 往 往 一 个 缓存 需要 建立 两 个 独立 的 数据 通路 ， 用 于 通信 的 不 同方 向 。 虽 然 
晶体 管 尺寸 不 断 减少 ， 但 是 硅 通 孔 的 尺寸 和 间距 并 不 随 之 以 同样 的 趋势 减 小 。 这 于 
致 硅 通 孔 具 有 相对 逐渐 增加 的 尺寸 和 间距 。 要 继续 利用 3D 堆 生 技术， 硅 通 了 筷 的 参 
数 需 要 不 断 地 调整 来 适应 缓存 的 不 断 变化 的 接口 。 例 如 ， 早 期 的 3D 堆 秋 缓存 可 能 
使 用 两 个 单 向 数据 通路 进行 通信 ， 但 随 着 相对 硅 通 和 孔 尺 寸 的 不 断 增加 ， 人 们 可 能 需 
要 使 用 单一 的 双向 总 线 。 男 一 个 可 能 性 是 为 了 减少 数据 总 线 的 宽度 ， 应 用 流水 线 的 
方式 在 多 个 周期 传输 数据 。 这 些 例子 说 明 设 计 是 可 以 在 很 宽 的 范围 内 适应 硅 通 孔 的 
特性 。 


7.2.2 可 选 功能 


EA 3D 集成 技术 应 用 中 堆 礁 的 必 片 数量 增多 (总 的 层 数 ) ， 额 外 的 压 焊 线 制 
造 工 艺 、 成 品 率 的 下 降 等 一 些 因素 都 会 增加 制造 成 本 。 此 外 ， 并 非 所 有 的 市 场 需求 
都 需要 通过 3D 集成 技术 来 提高 集成 度 ， 从 而 增加 产品 的 额外 功能 。 有 一 种 方法 是 
利用 3D 集成 技术 作为 一 种 手段 来 选择 性 地 为 处 理 器 增加 附加 功能 。 例 如 ， 当 一 个 
4 MB 的 二 级 缓存 可 以 满足 大 多 数 的 市 场 需求 ， 或 是 当 缓 存 进行 功能 和 性 能 的 扩展 
所 增加 的 成 本 和 功 耗 将 不 适合 某 些 应 用 (例如 ,成 本 低 或 移动 设备 ) ， 这 种 情况 
下 ,传统 的 2D 单 层 微 处 理 器 是 更 可 取 的 。 但 是 在 那些 大 容量 的 缓存 可 带 来 额外 收 
益 的 领域 〈 例 如， 服务 器 和 工作 站 ) ，3D 集成 技术 可 用 于 提供 缓存 的 扩展 ， 而 且 
不 需要 完全 重新 设计 处 理 器 。 制 造 商 可 以 利用 3D 集成 技术 ， 使 一 个 单一 的 处 理 器 
设计 满足 广泛 的 应 用 。 

7.2.2.1 自省 型 3D 处 理 器 

除了 纯粹 的 性 能 增强 外 ，3D 集成 技术 也 可 以 用 来 为 处 理 器 提供 新 的 功能 。 特 
别 是 Loi 等 人 提出 的 3D 结构 自省 型 处 理 器 ”。 程 序 员 和 工程 师 可 以 从 访问 有 关 微 
处 理 器 的 内 部 状态 的 详细 动态 信息 中 极 大 地 获 益 。 但 是 ， 现 代 硬 件 性 能 监控 
(HPM) 系统 的 功能 只 允许 用 户 监视 有 关 处 理 器 的 一 些 基本 统计 信息 ， 如 缓存 缺失 
的 数量 或 分 支 预测 命中 率 。 有 很 多 更 丰富 类 型 的 数据 对 于 软件 和 硬件 开发 人 员 也 是 
非常 有 用 的 ， 可 是 要 把 这 些 数 据 集 成 到 标准 的 处 理 器 中 ， 会 显著 地 增加 硬件 成 本 。 
图 7-3a 描绘 了 一 个 概念 上 的 处 理 器 的 布局 规划 图 。 在 布局 规划 图 中 ， 每 个 点 代表 
一 个 节点 ， 在 这 里 我 们 可 以 监控 一 些 信息 〈 例 如 ， 排 序 缓冲 器 占用 率 的 统计 、 功 
能 单元 利用 率 及 内 存 地 址 ) 。 为 了 公开 这 些 信息 给 用 户 ， 信 息 首先 需要 收集 到 的 一 
些 集中 的 HPM 单元 。 用 户 通常 可 以 配置 HPM 单元 来 选择 所 需 的 统计 信息 ， 人 额外 的 
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硬件 自省 引 敬 可 以 植 人 来 执行 更 复杂 的 分 析 ， 如 数据 分 析 、 内 存 分 析 、 安 全 检查 
等 ， 图 7-3b 示 出 了 处 理 器 的 整体 布局 规划 ， 它 受 布线 的 影响 。 额 外 的 互 连 线 、 中 
继 器 /缓冲 器 都 需要 分 配额 外 的 芯片 面积 。 这 进一步 导致 相 邻 功能 单元 距离 的 增加 ， 
从 而 增加 了 互 连 线 的 长 度 ， 引 起 性 能 下 降 。 这 样 ， 整 体 的 芯片 尺寸 可 能 会 增 大 ， 从 
而 增加 芯片 的 成 本 。 因 此 ， 虽 然 这 种 分 析 对 于 开发 者 非常 有 用 ， 绝 大 多 数 用 户 却 不 
会 使 用 它 。 





自省 型 引擎 





HA : 
BETTI 


el 


图 7-3 a) Mb Bee SOF etic BACON Ez; b) 同一 平面 规划 额外 的 
布线 空间 和 中 继 融 转发 数据 的 反省 引擎 ; c) 一 个 自省 型 3D 处 理 器 


目 省 型 3D 处 理 需 的 关键 概念 是 以 2D 处 理 器 为 基础 ， 尽 量 对 2D 处 理 器 不 做 修 
改 ， 以 减少 对 已 有 大 量 商用 处 理 咒 的 影响 ， 然 后 利用 3D 集成 技术 ， 有 选择 地 为 相 
对 数量 较 少 的 硬件 设计 师 、 软 件 开 发 人 员 和 OEM (原始 设备 制造 商 ) 提供 额外 的 
分 析 文 持 。 图 7-3c 示 出 了 自省 型 3D 芯片 的 两 层 结构 。 顶 层 给 出 了 几 个 分 析 引 擎 的 
例子 。 它 可 以 设计 多 种 类 型 的 自省 层 ， 然 后 为 不 同类 型 的 开发 者 堆 友 不 同 的 引擎 或 
设置 不 同 的 引擎 。 最 主要 的 是 ， 利 用 这 种 方法 提供 的 功能 添加 自省 单元 对 基本 的 处 
理 器 层 的 影响 最 小 ， 处 理 器 布局 规划 比较 如 图 7-3a、c 所 示 。 

7.2.2.2 可 靠 的 3D 处 理 器 

现代 微 处 理 器 中 器 件 尺 寸 不 断 减 小 ， 从 而 导致 存储 数据 易 被 损坏 ， 这 是 多 种 原 
因 造 成 的 ， 如 更 高 的 温度 、 电 源 噪 声 、 互 连 串 扰 和 高 能 粒子 的 随机 影响 CIA, o 
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颗粒 ) 等 。 虽然 目 前 处 理 器 中 的 许多 SRAM 结构 已 经 采用 纠 错 码 (ECC), LAB IE 
这 些 软 错误 5 ,但 随 着 器 件 尺寸 的 进一步 减 小 ， 未 来 处 理 器 的 脆弱 性 将 不 断 
增加 。 

假设 常规 的 处 理 器 可 能 会 发 生 错 误 ， 并 且 可 能 产生 不 正确 的 结果 ， 一 种 防止 此 
种 错误 的 方法 是 提供 某 种 形式 的 元 余 。 复 制 两 个 相同 的 处 理 希 ， 处 理 硕 被 迫 锁 步 运 
行 。 每 个 处 理 器 产生 的 结果 可 以 确认 另 一 个 。 如 果 两 个 结果 不 相同 ， 一 方 〈 或 双 
Ji) 必然 有 错误 。 这 时 ， 系 统 会 刷新 两 条 流水 线 ， 然 后 重新 执行 指令 。 如 末 应 用 
三 模 宛 余 ， 以 运算 结果 相同 的 多 数 作为 正确 结果 ， 不 需要 重新 执行 指令 ， 但 必须 复 
制 多 个 该 流水 线 显著 增加 了 系统 的 成 本 。 

除了 使 用 锁 步 方式 运行 多 个 流水 线 ， 另 一 种 方法 是 设计 两 条 流水 线 分 别 作为 前 
导 执 行内 核 和 尾随 检查 内 核 。 对 于 每 个 前 导热 行内 核 执行 的 指令 ， 尾 随 内 核 会 在 稍 
后 的 时 间 重 新 执行 此 指令 (不 锁 步 ) ， 以 检查 出 可 能 的 错误 。 虽 然 这 听 起 来 与 模块 
宛 余 的 方法 非常 相似 ， 这 种 架构 能 够 优化 尾随 检查 内 核 ， 从 而 降低 成 本 。 举 例 来 
说 ， 可 以 不 采用 昂贵 的 分 支 预测 需 ， 而 是 尾随 内 核 可 以 简单 地 使 用 由 前 导 内 核 执 行 
的 计算 结果 。 除 了 很 少 的 软 错误 外 ， 前 导 内 核 的 结果 绝 大 部 分 是 正确 的 ， 因 此 尾随 
内 核 将 从 有 效 而 完善 的 预测 中 受益 。 类 似 地 ， 前 导 内 核 充 当 存 储 融 预 取 顺 ， 使 得 尾 
随 内 核 在 缓存 中 几乎 总 是 命中 。 还 有 许多 其 他 的 优化 也 减少 了 检查 内 核 的 成 本 ， 在 
此 不 作 描述 ” 。 

即使 有 一 个 优化 的 检查 内 核 ， 附 加 的 流水 线 比 原来 未 修改 的 处 理 器 流水 线 仍然 
需要 更 多 的 面积 。 类 似 的 动机 内 省 型 的 3D 处 理 器 ， 并 不 是 所 有 的 用 户 需 要 其 系统 
的 可 靠 性 处 于 这 个 水 平 ， 他 们 不 希望 因为 他 们 不 关心 的 功能 、 付 更 多 的 钱 。3D HE 
芋 结 构 也 可 用 于 有 选择 地 为 常规 处 理 器 增加 检测 内 核 ， 使 其 成 为 高 可 靠 性 的 系 
统 ”。 图 7-4a 示 出 了 有 具有 前 导 内 核 和 检查 内 核 的 2D 处 理 器 架构 。 类 似 于 图 7-3, 
内 核 之 间 通 信 所 需 的 额外 的 布线 可 能 会 增加 面积 开销 。 这 种 通信 的 延迟 也 因 延 迟 了 
内 核 之 间 的 交互 信息 影响 了 性 能 。 

3D HESS UN 7-4b 所 示 ， 避 免 了 2D 结构 的 许多 缺点 。 首 先 ， 它 允许 检查 
内 核 可 选 ， 从 而 再 不 相关 地 细 分 市 场 ， 成 本 不 会 增加 。 第 二 ，3D 结构 最 小 化 了 处 
于 前 导 内 核 和 检查 内 核 之 间 的 路 由 需 的 影响 。 这 也 影响 了 布线 开销 、 基 线 处 理 器 核 
的 布局 ， 以 及 核心 之 间 通 信 的 延迟 时 间 。 

检查 内 核 比 原来 的 前 导 内 核 需 要 更 少 的 版 图 面积 ， 主 要 是 由 于 前 面 所 述 的 各 种 
优化 。 这 种 差异 在 面积 配置 文件 中 可 能 会 留 下 一 个 显著 的 未 使 用 的 芯片 面积 。 人 们 
可 以 方便 地 使 用 这 些 面积 设计 和 额外 的 缓存 。 男 一 个 可 行 的 方法 是 使 用 基于 上 一 代 工 
艺 技 术 (例如 ，65nm， 而 不 是 45nm) WEBER, WE 7-4c 所 示 。 首 先 ， 基 于 上 
一 代 工 艺 技术 生产 的 芯片 更 便宜 。 其 次 ， 在 基于 上 一 代 工 艺 技术 工艺 的 晶体 管 的 特 
征 斥 才 都 较 大 ， 从 而 使 它们 较 少 受 软 错误 的 影响 。 这 样 的 做 法 有 可 能 降低 成 本 ， 同 
时 提高 了 可 靠 性 。 
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b) c) 


图 7-4 a) —"rn[ 3E ME PEZSARSTAUHI— T7 NIE; b) 3D EZAMA A DUO ; 
c) Alb) 相同 , 但 尾随 内 核 用 较 旧 的 工艺 技术 来 实现 


与 常规 的 处 理 器 相 比 ， 自 省 型 3D 处 理 器 和 3D 堆 芋 结构 的 可 靠 性 增强 ， 只 
两 种 可 能 的 方式 来 使 用 3D 集成 提供 可 选 的 功能 。 这 无 疑 有 许多 其 他 可 能 的 应 用 ， 
如 堆 释 结构 的 特定 应 用 下 的 加 速 右 以 及 可 重 构 逻 辑 单 元 等 。 

7.2.2.3 硅 通 孔 的 要 求 

对 于 这 两 种 内 省 型 3D Ab AE A 3D 堆 和 县 结构 的 可 靠 性 检查 内 核 ， 层 间 通 信 的 
要 求 不 是 非常 高 ， 也 不 会 由 硅 通 也 尺寸 和 间距 限制 。 目 前 ， 唱 圆 键 合 技术 可 以 提供 
每 平方 厘米 成 千 上 万 个 硅 通 孔 (10000 ~ 100000 ) 。 在 内 省 层 所 需 的 信和 号 硅 通 孔 的 
总 数 取 决 于 需要 收集 和 监控 处 理 需 层 的 分 析 引 敬 和 数据 量 。 跟 踪 使 用 率 或 各 种 架构 
的 占用 率 只 需要 相对 较 小 的 计数 器 。 为 了 降低 硅 通 孔 的 要 求 ， 这 些 甚至 可 分 割 ， 使 
计数 硕 有 大 位 位 于 处 理 需 层 上 。 一 旦 2K 个 事件 完成 ， 计 数 器 需要 传输 进位 到 位 于 
内 省 层 的 计数 硕 的 剩余 部 分 〈 因 此 要 求 每 个 计数 器 只 有 一 个 硅 通 孔 足 以 ) 。 对 于 安 
全 分 析 ， 该 内 省 层 将 可 能 只 需要 检查 内 存 访 问 ， 这 将 转化 为 监视 几 个 内 存 地 址 总 线 
和 可 能 的 TLB 信息 ， 共 计 不 超过 几 百 位 。 

3D 堆 释 可靠 性 检查 内 核 的 主要 通信 和 需求 是 前 导 和 检查 内 核 之 间 通 信和 的 数据 量 。 
该 峰值 通信 速率 是 由 前 导 内 核 的 提交 率 有 效 地 限制 。 核 之 间 典 型 的 通信 信息 包括 : 
守 存 带 结 果 、 负 人 答 值 、 分 支 结 果 和 存储 值 。 假 定 128 位 的 数据 值 (例如 ， 多 媒体 
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寄存 器 ) ， 一 个 寄存 器 的 结果 、 一 个 负载 值 、 一 个 存储 值 、 一 个 分 支 结 采 CELTRUT 
向 和 目标 ) 要 求 小 于 512 位 。 应 用 四 路 超标 量 处 理 器 ， 这 仍然 只 增加 了 2048 位 
(或 硅 通 孔 ) 来 实现 前 导 和 检查 内 核 之 间 的 通信 。 


7.2.3 系统 级 集成 


先前 3D 集成 的 应 用 都 集中 在 以 某 种 方式 扩展 传统 微 处 理 器 的 功能 。3D 集成 
也 可 以 用 于 集成 微 处 理 器 以 外 的 电路 结构 。 例 如 系统 存储 器 (DRAM)“”、 模 拟 
电路 ""、 闪 存 、 图 像 传 感 器 阵列 ， 以 及 通常 位 于 同一 个 系统 主板 上 的 其 他 组 件 。 
由 于 本 章 的 重点 是 3D 微 处 理 器 设计 ， 我们 不 会 进一步 探讨 这 些 系 统 级 的 问题 。 第 
9 音 提 供 了 一 个 很 好 的 说 明 ， 并 讨论 了 一 种 可 能 的 3D 集成 的 服务 器 系统 ， 称 为 


PicoServer, 
7.3 ” 堆 生 功能 单元 模块 


在 上 一 节 中 描述 的 几 种 可 能 的 3D 集成 的 应 用 ， 不 需要 任何 实质 性 地 改变 微 处 
理 器 的 体系 结构 。 对 于 最 初 几 代 的 3D 微 处 理 右 ， 尽 可 能 地 使 设计 采用 微调 的 方 
法 ， 以 减少 采用 新 技术 相关 的 风险 。3D 集成 将 需要 许多 新 的 工艺 、 新 的 设计 目 动 
化 工具 、 新 的 版 图 支持 方法 、 新 的 验证 和 确认 方法 以 及 其 他 基础 保证 。 以 上 这 些 最 
早 的 版 本 可 能 不 能 有 效 地 支持 复杂 、 精 细 地 划分 的 3D 结构。 但 是 ， 随 着 技术 的 进 
步 ， 计 算 机 结构 设计 师 可 以 通过 新 途径 重 构 处 理 需 流水 线 。 


7.3.1 移 除 互 连 线 


互 连 线 延迟 在 现代 处 理 器 的 设计 中 起 着 非常 显著 的 作用 。 虽 然 每 代 工 艺 技术 都 
提供 了 较 前 一 代 更 快 的 晶体 管 ， 但 互 连 线 延 迟 的 减 小 没有 跟 上 同样 的 速度 。 因 此 ， 
相对 的 互 连 线 延 迟 随 着 时 代 的 发 展 不 断 增 加 。 逻 辑 门 曾经 是 处 理 器 周期 时 间 的 主要 
决定 者 ， 但 现在 互 连 线 延 开 已 成 为 另 一 个 主要 的 设计 约束 。 图 7-Sa 和 图 7-5b 分 别 
为 在 英特尔 奔腾 亚 处 理 器 的 分 支 预测 错误 检测 流水 线 和 英特尔 奔腾 JIV 处 理 器 … 中 
数据 经 过 的 各 级 。 由 于 具有 更 小 的 晶体 管 尺 寸 ， 奔 腾 芭 流水 线 期 望 相对 更 高 的 目标 
时 钟 速度 ， 但 却 具 有 相对 较 长 的 互 连 线 延迟 ， 奔 腾 芍 流水线 需要 两 倍 多 的 级 数 。 此 
外 ， 有 两 个 流水 线 级 〈 在 图 中 突出 显示 的 ) ， 它 们 只 是 专用 于 驱动 信号 从 芯片 中 的 
一 个 部 分 到 另 一 部 分 。 互 连 线 的 延迟 变 得 很 大 ， 以 致 由 该 信号 到 达 其 目的 地 后 没有 
剩余 的 时 钟 周期 来 执行 任何 有 用 的 计算 。 但 是 ,在 一 个 3D 结构 中 ， 流水线 各 级 可 
以 重组 ， 先 前 较 远 模块 现在 垂直 堆 芋 在 彼此 的 顶部 。 因 此， 流水 线 各 级 所 包含 的 互 
连 线 延迟 现在 可 以 完全 移 除 ， 从 而 减 小 了 流水 线 的 整体 长 度 。 

一 个 则 在 应 对 日 益 增 加 的 流水 线 延迟 的 男 一 例子 是 Alpha 21264 fb 3828 ^. 
”作为 超标 量 处 理 器 ， 它 具有 多 个 执行 单元 ， 需 要 一 个 旁 路 网 络 向 所 有 的 执行 单元 之 
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EDA、 设 计 和 微 体 系 结构 
| 2 3 4 5 6 7 8 9 10 
Fetch Fetch | Decode | Decode | Decode | Rename | ROB Rd | Rdv/Sch | Dispatch| Exec 
a) 奔腾 亚 


1|21|13 | 4 NE 61718 S | 101 1 | 2) I$] 14] IS) 18 | 172 | 18] 19 EE 
TC Nxt IP| TC Fetch|EsizsAlloc| Rename|Queue Schedule | Dispatch | RD Read|Exec|Flgs|BrCk[Bsf! 


b) 奔腾 IV 
图 7-5 分 文 预测 错误 解析 流水 线 英 特 尔 奔腾 亚 和 奔腾 JV 


间 转 发 结果 。 这 个 劳 路 网 络 需 要 大 量 的 布线 ， 并 且 随 着 执行 单元 数目 的 增加 ， 这 些 
线 的 长 度 也 增加 … 。 如 果 是 常规 的 处 理 器 机 构 ， 旁 路 网 络 的 延迟 会 严重 降低 Alpha 
21264 处 理 融 的 时 钟 频 率 。 取 而 代 之 的 是 ，Alpha 21264 的 设计 者 把 执行 单元 分 成 
两 组 或 两 族 ， 如 图 7-6a 所 示 。 每 个 簇 包含 自己 的 劳 路 网 络 ， 从 而 在 簇 内 部 指令 间 
和 零 周 期 的 转发 结果 。 如 果 一 个 指令 需要 它 的 结果 转发 给 其 他 簇 的 另 一 个 指令 ， 则 该 
值 必须 通过 二 级 劳 路 ， 从 而 带 来 额外 的 周期 延迟 。 类 似 于 奔腾 T 额外 流水 线 进程 ， 
这 个 额外 进程 中 的 劳 路 实际 上 仅 会 带 来 互 连 线 延 迟 。 然 而 在 3D 结构 中 ， 人 们 可 以 
设法 堆 全 两 个 禾 ， 一 个 位 于 男 一 个 的 项 部， 如 图 7-6b 所 示 ， 以 消除 长 而 慢 的 簇 间 
布线 ， 从 而 消除 了 因 簇 之 间 转 发 结果 而 产生 的 额外 时 钟 周期 。 从 缓存 到 执行 单元 路 
径 ， 从 寄存 器 堆 到 浮 点 单元 路 径 “也 都 研究 了 使 用 3D 结构 转发 簇 间 结果 来 消除 额 
外 的 时 钟 周期 延迟 。 










WATO 
WATO 执行 入 v7 v7 
a 
A a ee Ao EF ‘i ser. 
p SS 
10 周 期 .0 周期 
t 
71 额外 周期 ne 
a) b) 


图 7-6 a) Alpha 21264 (Ja? KIER THR, b) 一 个 可 能 的 3D AS 


这 种 方法 采用 3D 集成 结构 来 堆栈 功能 单元 ， 设 计 不 同 的 流水 线 元 件 ， 相 比 
7.2 市 中 讨论 的 粗放 堆 秋 完整 功能 模块 的 方式 具有 很 大 的 灵活 性 。 这 样 做 的 好 处 
征 ， 可 以 缩短 或 是 完全 消除 更 多 的 块 间 布线 ， 这 反 过 来 又 可 以 提高 性 能 并 降低 功 
标 。 但 当 传 统 的 微 体系 结构 技术 用 于 改进 性 能 时 ， 通 常 也 需要 增加 功 耗 ， 或 与 此 相 
反 ， 任 何 降 低 功 耗 的 尝试 往往 会 导致 性 能 损失 。 应 用 3D 集成 技术 ， 我 们 在 物理 上 
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减少 了 系统 中 的 布线 的 数量 。 减 少 的 RC 总 线 同 时 使 延迟 和 功 耗 直接 受益 。 

虽然 有 一 些 相关 的 成 本 ， 堆 二 功 能 单元 提供 了 更 多 的 机 会 来 优化 处 理 需 流水 
线 。 通 过 消除 流水 线 额外 进程 ， 整 体 流 水 线 组 合 可 能 变 得 更 简单 ， 但 仍 需要 一 些 
日 常 的 设计 工作 ， 以 修改 流水 线 ， 然 后 验证 新 的 设计 依然 如 预期 般 工 作 。 这 说 
明 ， 堆 春 增 加 的 成 本 超过 了 简单 的 重复 使 用 一 个 完整 的 2D 处 理 需 内 核 的 成 本 。 
请 注意 ， 每 个 功能 单元 的 基本 设计 还 是 原 有 的 2D 设计 。 每 个 功能 单元 仅 占 据 一 
个 层 。 人 允许 重用 已 有 的 宏 单元 库 。 在 下 一 节 中 ， 我 们 将 探讨 设计 方案 ， 即 使 像 寄 
存 器 堆 和 运算 单元 的 基本 模块 也 可 以 分 割 于 几 层 中 ,但 要 花费 更 大 的 设计 和 工程 
的 成 本 。 


7.3.2 对 硅 通 孔 的 要 求 


前 述 的 技术 是 堆 炙 完整 的 模块 (如 内 核 ， 缓存 ) 在 彼此 的 顶部， 此 时 需要 较 
少 的 硅 通 孔 ， 这 是 相对 3D 堆 释 结构 可 以 提供 的 硅 通 孔 数量 而 言 的 。 但 是 堆 释 功能 
单元 模块 时 ， 所 需 的 硅 通 孔 的 数量 视 模 块 排列 数量 而 不 断 增 加 。 人 例如， 在 上 一 节 中 
讨论 的 Alpha 21264 的 执行 篮 结 构 ， 要 求 各 层 之 间 的 寄存 天 结果 通过 劳 路 。 特 别 
地 ， 每 个 执行 簇 可 以 产生 高 达 每 循环 两 个 64 位 的 结果 。 这 和 总共 需要 4 个 结果 ， 这 
就 增加 了 多 达 256 位 ， 再 加 上 额外 的 用 于 物理 寄存 需 标 识 符 的 位 。 此 外 ， 该 存储 
屁 执 行 簇 产生 的 每 入 两 个 额外 的 结果 也 需要 转发 到 两 个 执行 徐 。 假 设 该 存储 器 执 
行 族 位 于 底部 族 上 ， 这 增加 了 两 个 64 位 的 结果 即 共 128 位 。 但 总 的 来 说 ， 这 仅 
仅 增 加 了 几 百 个 硅 通 孔 ， 只 占 两 三 个 模块 。 如 果 1 级 缓存 被 堆 释 在 存储 器 执行 簇 
的 顶部 ， 两 个 64 位 数据 总 线 和 2 个 64 位 地 址 总 线 共 需要 256 个 硅 通 孔 。 如 果 许 
多 模块 如 此 堆 秋 ,每 一 个 需要 几 百 硅 通 孔 ， 硅 通 孔 总 量 会 能 很 快 攀升 至 数 千 个 其 
EEIT 

除了 总 的 硅 通 孔 数量 的 要 求 ， 局 部 通 孔 也 可 能 会 导致 物理 版 图 的 问题 ， 而 导线 
长 度 也 会 引起 后 续 的 问题 。 考 虑 图 7-7a 中 的 两 个 模块 ， 模 块 并 行 排列 ，16 条 互 连 
线 连接 它们 。 在 这 种 情况 下 ， 对 给 定 的 硅 通 孔 尺 寸 ， 层 到 在 彼此 顶部 的 模块 不 会 引 
起 任何 问题 ， 如 图 7-7b 所 示 。 现 在 考虑 图 7-7c 中 的 两 个 模块 ， 这 仍 需 要 16 条 互 
连 线 ， 但 这 些 块 的 总 高 度 大 为 缩短 。 其 结果 是 ， 没 有 足够 的 空间 来 容纳 所 有 的 硅 通 
孔 。 在 图 7-7d 中 ， 所 有 硅 通 孔 都 短路 在 一 起 。 利 用 不 同 的 硅 通 孔 布局 ， 重 排 互 连 
线 来 满足 硅 通 孔 间 隔 规 则 仍 是 可 能 的 。 图 7-7e 显示 ， 一 些 局 部 的 布线 是 潜在 的 
解决 方法 。 注 意 ， 局 部 布线 会 再 次 产生 一 些 布线 的 开销 ， 从 而 降低 了 3D 集成 结 
构 减 少 互 连 线 带 来 的 益处 。 在 极端 情况 下 ， 如 果 硅 通 孔 的 要 求 非 常 高 ， 面 积 非常 ， 
有 限 ， 总 局 部 布线 可 能 完全 抵消 3D 结构 原 有 的 减少 互 连 线 的 好 处 。 这 些 问题 需 
要 在 放置 模块 开发 的 早期 阶段 ， 并 与 处 理 器 数据 和 控制 路 径 的 整体 布局 中 加 以 
考虑 。 
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SEES. 


ahhh 


a) 


i 


图 7-7 两 个 16 个 互 连 的 可 通信 模块 : a) 原 2D 版 本 ; b) 3D EBRE; c) 紧密 
间距 2D 版 本 ; d) 不 符合 TSV 的 非 功能 性 3D 版 本 ; e) 可 替代 布局 


Nr 


NEYE 


K Ur 


TEPE 
RSR 


LOL 
MT 


d 





HL HE 
me 


$ 


H 
— 





L 


d) e) 


7.3.3 设计 局 限 问 题 


流水 线 设 计 为 堆 生 结构 也 可 能 会 带 来 散热 问题 ， 这 在 第 4 ~6 章 会 有 所 讨论 。 
冉 次 使 用 Alpha 21264 执行 秘 作 为 例子 ， 堆 秋 一 个 执行 簇 在 男 一 个 的 顶部 可 以 降低 
关键 路 径 互 连 线 的 长 度 ， 但 也 同时 直接 堆 炙 一 个 发 热 模块 于 男 一 个 的 项 部。 由 此 带 
来 的 心 片 温度 的 增加 可 能 导致 处 理 带 更 频繁 地 进入 热 保护 机 制 。 这 反 过 来 就 导致 较 
低 的 平均 电压 和 时 钟 速度 ， 从 而 使 性 能 损失 比 旁 路 造成 的 额外 周期 增加 还 大 。 由 于 
3D 堆 释 结构 具 用 更 大 的 设计 灵活 性 ,我 们 现在 有 更 多 的 方式 来 打造 更 好 的 产品 ， 
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但 也 面临 一 个 相对 更 大 的 设计 局 限 ， 即 同时 平衡 高 性 能 、 低 功 耗 、 低 必 片 温度 、 低 
重 设计 ， 及 往往 与 这 些 设 计 要 求 相 矛盾 的 产品 设计 目标 和 许多 其 他 因素 。 


7.4 拆 分 功能 单元 模块 


除了 彼此 顶部 堆 秋 的 功能 单元 的 块 ， 青 往 下 细 化 ， 可 以 应 用 3D 结构 于 实际 的 
逻辑 门 ， 即 可 以 分 割 单独 的 功能 单元 于 多 个 展 。 现 代 高 性 能 处 理 融 一 些 关 键 模 块头 
键 路 径 的 延迟 都 是 互 连 线 上 的 RC 产生 的 。 在 这 种 情况 下 ， 重 组 功能 单元 块 使 其 成 
为 更 紧凑 的 3D 结构 可 以 有 助 于 减少 模块 内 部 的 互 连 线 长 度 ， 从 而 提高 这 些 模块 的 
工作 频率 。 在 本 节 中 ， 我 们 只 研究 了 两 个 微 处 理 需 模块 ， 但 这 些 技术 和 方法 也 可 以 
通过 扩展 或 改进 来 拆 分 其 他 模块 。 正 在 讨论 的 技术 并 不 一 定 具 体 而 详尽 ， 但 提供 了 
一 个 出 发 点 ， 以 思考 创造 性 的 方式 跨 多 个 层 设计 实现 电路 。 


7.4.1 三 维 缓存 结构 的 折 中 


现代 高 性 能 微 处 理 需 的 大 部 分 必 片 面积 被 多 种 绥 冲 存储 融 占 据 。 许 多 市 场 状况 
较 好 的 主流 芯片 ， 其 二 级 /最 后 一 级 缓存 已 经 占用 了 约 一 半 的 芯片 面积 。 此 外 ， 处 
理 需 还 有 许多 其 他 缓存 ， 如 一 级 缓存 、 页 表 缓 存 (TLB), ZLM ERP, 
我 们 将 重点 放 在 缓存 上 ,， 但是， 相同 的 想法 可 以 很 容易 地 应 用 到 流水 线 中 的 基于 
SRAM FFM AR REJI] o 

我 们 首先 回顾 3D 集成 结构 中 粒度 选择 的 影响 。 图 7-8 显示 了 几 种 不 同 的 方法 
应 用 3D 结构 于 二 级 缓存 。 在 这 个 例子 中 ， 我 们 假设 二 级 缓存 已 经 被 划分 为 8 组 。 
图 7-8a 说 明了 传统 的 2D 布局 。 最 坏 情 况 下 的 布线 距离 取决 于 处 理 器 内 核 的 二 级 高 
速 缓 冲 存 储 右 存 取 逻 辑 的 位 置 (用 箭头 示 出 ) ， 最 大 可 达 约 2x +4y， 其 中 x 和 y 是 
一 个 二 级 存储 块 的 侧面 的 长 度 。 图 7-8b 显示 类 似 于 第 7. 2 节 中 描述 的 粗 粒度 的 堆 
友 方 式 。 请 注意 ， 虽 然 芯片 的 整体 尺寸 已 经 减少 了 一 半 ， 但 在 最 坏 情况 下 访问 最 远 
位 时 ， 线 的 距离 相对 于 原来 的 2D 情况 并 未 改变 。 

当 粒 度 达 到 更 精细 的 水 平 ， 则 二 级 缓存 可 以 通过 重新 排列 存储 块 实现 完全 堆 
f HI7-8e 显示 了 一 个 3D 结构 的 存储 块 堆 释 架构 。 假 设 每 个 处 理 器 核 也 被 拆 分 到 
两 个 屋 ， 利 用 第 7.3 节 中 讨论 的 堆 释 的 模块 的 方式 。 在 这 个 例子 中 ， 最 坏 情 况 下 的 
布线 距离 从 处 理 器 核 到 最 远 的 位 单元 ， 此 距离 已 减少 2y。 该 线 长 度 减 少 可 直接 转 
化 为 在 二 级 缓存 访问 延迟 的 减少 。 这 种 架构 的 一 个 优点 是 ， 各 个 存储 块 的 版 图 基本 
保持 不 变 ， 即 使 整个 二 级 缓存 已 经 跨 过 多 个 层 ， 这 种 方法 不 要 求 缓存 彻底 的 重新 
设计 。 

7.4.1.1 分 割 为 3D 结构 的 缓存 

长 的 全 局 互 连 线 是 二 级 缓存 访问 延迟 的 主要 来 源 ， 但 每 个 存储 块 内 部 的 互 连 线 
也 极 大 地 影响 了 整体 延迟 。 长 的 全 局 互 连 线 使 用 上 层 金属 ， 这 是 典型 的 设计 ， 以 使 
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b) c) 


图 7-8 8 组 二 级 缓存 的 双核 处 理 器 : a) 2D 版 本 ; b) 在 核心 上 
HERG; c) ZAHER TEA 


过 号 传输 更 长 的 距离 。 这 包括 谨慎 选择 导线 的 几何 形状 〈 例 如 ， 宽 度 与 高 度 的 比 
例 ) 、 考 虑 线 间距 ， 以 及 确定 最 佳 位 置 和 驱动 的 尺寸 。 模 块 内 的 互 连 线 仍 可 能 相对 
较 长 ， 但 模块 内 的 布线 通常 采用 中 间 金 属 层 ， 不 利于 长 度 优化 。 此 外 ,模块 内 的 逻 
辑 通常 显示 出 较 高 的 密度 ， 这 就 使 置 驱动 于 最 佳 位 置 和 最 佳 大 小 几乎 是 不 可 能 的 。 
为 了 处 理 这 个 问题 ， 我 们 也 可 以 考虑 拆 分 存储 块 于 多 个 层 。 

虽然 不 同 高 速 缓冲 存储 器 的 单元 设计 、 集 数 、 设 置 相关 性 、 标 签 的 大 小 和 行 大 
小 等 方面 变化 很 大 , 但 是 基本 的 底层 结构 和 电路 拓扑 结构 上 是 大 致 相同 的 。 
图 7-9a 说 明了 在 读 取 单 个 位 时 ， 一 个 基本 的 SRAM 组 合 结 构 。 行 译 码 器 给 出 了 被 
读数 据 的 地 址 。 行 译 码 器 置 高 一 个 且 只 有 一 个 输出 字 线 。 被 激活 的 字 线 使 所 有 该 行 
存储 单元 输出 各 自 值 于 位 线 。 列 多 路 选择 器 由 地 址 位 控制 ， 选 择 位 线 中 的 一 个 
(正方 一 对 ) 并 传送 这 些 信 和 号 到 读 出 放大 器 。 读 出 放大 器 可 以 通过 快速 检测 一 对 位 
线 之 则 的 任何 微小 压 差 来 加 快 读 访 问 速 度 。 对 于 一 个 传统 的 缓存 ， 可 能 有 多 个 平行 
的 阵列 来 分 别 实现 缓存 数据 和 标签 部 分 。 男 外 ， 附 加 的 多 路 选择 机 构 ， 增 强 了 标签 
比较 逻辑 ， 可 以 实现 相连 缓存 。 这 样 的 逻辑 结构 不 包含 在 本 节 中 ， 本 节 只 针对 图 中 
简单 的 结构 。 

有 两 种 主要 的 方法 可 以 把 SRAM 阵列 拆 分 为 3D Sa! ， 我 们 将 在 下 面 依次 
Wie. Slc DES map XE, WME 7-9b 所 示 。 总 共有 两 种 
有 效 的 方法 来 设计 这 种 列 堆 和 至 电路 。 第 一 种 ， 人 们 可 以 简单 地 把 每 一 行 视 为 分 割 到 
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两 个 层 。 这 意味 着 原来 的 字 线 现在 被 臂 开 在 两 个 层 。 这 样 ， 字 线 可 更 快 地 激活 ， 内 
为 现在 字 线 长 度 大 约 只 有 原来 的 一 半 。 而 附加 的 缓冲 器 /驱动 硕 可 能 需要 进一步 优 
化 电路 。 输 出 列 多 路 选择 器 也 需要 穿 过 两 层 进行 分 配 。 第 二 列 堆 全 结构 是 把 它 的 列 
数 翻 倍 ， 但 每 一 行 现在 只 有 原来 一 半 的 单元 ， 如 图 7-9c 所 示 。 这 使 字 线 是 原来 长 
度 的 一 半 (这 与 两 个 半 长 的 字 线 相互 连接 不 同 ) ， 但 它 增 加 了 行 诺 码 硕 的 位 数 。 
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c) d) 


图 7-9 SRAM 阵列 组 合 : a) 初始 2D 布局 ; b) 3D 列 对 列 布局 与 行 分 割 |; 
c) 3D 列 对 列 布局 与 2n 个 半 长 行 ; d) 3D 行 对 行 布局 


其 他 结构 是 行 的 堆 和 到， 从 而 使 SRAM 阵列 的 高 度 大 约 减 半 ， 如 图 7-9d 所 示 。 
这 个 结构 需要 拆 分 行 译 码 器 于 两 个 展 ， 所 以 选择 单个 行 时 或 是 从 顶部 或 是 从 底部 。 
因为 只 有 一 个 单独 的 行 被 选择 时 ， 在 列 多 路 选择 器 工作 之 前 ， 在 理论 上 堆 秋 的 位 线 
可 以 共用 。 但 由 于 延迟 和 功率 的 原因 ， 位 线 通 常 分 开 作 为 单独 的 多 路 转换 器 输入 端 
( 见 图 7-9d)， 以 隔离 位 线 之 间 的 电容 。 与 标准 的 2D 情况 相 比 ， 这 需要 列 多 路 选择 
化 处 理 两 倍 的 输入 ， 但 整个 缓存 中 的 读 取 延 迟 对 列 多 路 选择 器 延迟 不 太 敏 感 ， 因 为 
对 多 路 转换 需 的 控制 输入 端的 设置 过 程 可 以 与 行 译 码 和 存储 单元 读 取 重 释 进 行 。 在 
这 两 个 行 堆 磊 和 列 堆 和 琶 的 结构 中 ， 无 论 是 字 线 或 位 线 的 长 度 都 变 短 了 。 在 任 一 情况 
下 ， 此 线 长 度 减 少 可 以 同时 转化 为 延迟 和 能 量 的 减 小 。 
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现在 ， 我 们 简要 地 介绍 一 些 实验 结果 ， 以 定量 评估 3D 结构 对 缓存 的 影响 。 这 
此 结果 基于 65nm 器 件 模型 的 电路 级 仿真 (SPICE) 。 表 7-3 示 出 了 2D 和 3D 结构 
不 同 大 小 缓存 的 延迟 。3D 缓存 由 列 堆 释 结构 组 成 。 我 们 发 现 字 线 延 时 已 经 超过 了 
位 线 延迟 ， 因 此 堆 释 的 列 (降低 字 线 的 长 度 ) BMRA ERRATA TA], A 
的 趋势 是 ， 随 着 缓存 容量 的 增 大 ，3D 结构 的 相对 收益 (减少 延迟 %) 也 随 之 增 
加 。 这 是 因为 ， 直 观 上 ， 缓 存 越 大 ， 互 连 线 越 长。 相对 益处 并 不 是 单调 增加 的 ， 因 
为 不 同 大 小 的 缓存 都 被 分 别 优 化 ， 以 使 基本 的 2D 结构 具有 最 低 的 延 开 。 

当 双 层 结构 不 能 满足 缓存 要 求 时 ， 缓存 也 可 以 分 配 至 4 个 (或 更 多 ) 层 。 表 
7-3 的 仿真 结果 还 包括 4 层 的 3D 结构 。 因 为 在 大 容量 缓存 中 ， 字 线 的 延迟 往往 超 
过 了 位 线 的 延迟 ， 所 以 在 4 层 版 本 中 ,我们 首先 拆 分 SRAM 阵列 为 列 堆 苹 的 结构 。 
在 该 结构 中 ， 此 时 位 线 延 迟 对 整体 延迟 的 贡献 要 大 于 字 线 。 因 此 ， 从 两 个 层 延 伸 到 
4 个 层 ， 堆 秋 一 半 的 行 在 男 一 半 的 项 部 。 仿 真 结果 表明 ， 此 结构 延 人 运 进 一 步 减 小 ， 
但 是 2 层 增加 到 4 层 的 相对 收益 要 小 于 1 层 到 2 层 的 相对 收益 。 

表 7-3 65nm 工艺 下 的 模拟 延迟 结果 (在 ns) ， 实 施 各 种 2D 和 3D 的 SRAM 


缓存 大 小 /KB 1 层 2D sii 4 层 3D 延迟 
32 0. 752 0.584 ( -22% ) 
64 1.232 0.731 ( -41% ) 
128 1. 716 1.233 ( -28% ) 
256 2. 732 1.513 ( -45% ) 
512 3. 663 2.461 ( -33% ) 
1024 5. 647 3.066 ( -46% ) 


虽然 列 堆 和 县 结构 为 两 层 3D 缓存 提供 了 最 好 的 延迟 改进 率 ， 但 它 不 能 有 效 地 降 
低 功 耗 。 我 们 发 现 ， 当 功 耗 是 主要 的 设计 参数 时 ， 行 堆 笃 结构 提供 了 更 多 的 相对 功 
耗 收益 。 当 字 线 访问 SRAM 中 的 某 行 时 ， 该 行 中 所 有 的 存储 单元 都 尝试 连接 它们 
各 目的 位 线 。 而 列 多 路 选择 顺 只 选择 其 中 的 一 个 到 灵敏 放大 器 ， 但 此 行 中 所 有 单元 
的 位 线 都 充电 /放电 消耗 了 功 耗 。 因 此 ， 通 过 行 堆 笃 减少 了 位 线 的 长 度 ， 这 就 直接 
降低 了 位 单元 的 输出 电容 。 从 整 条 位 线 来 看 ， 堆 释 后 每 条 位 线 功 耗 都 有 所 降低 。 5j 
此 相反 ,减少 了 字 线 长 度 节省 的 能 量 较 少 ， 因 为 行 译 码 器 每 次 读 写 时 只 激活 一 条 字 
线 。 虽 然 这 些 结果 可 能 由 于 缓存 的 结构 不 同 而 不 同 ， 但 一 般 来 说 ，3D 结构 的 确定 
主要 取决 于 具体 的 设计 约束 和 目标 需要 。 设 计 一 个 3D 电路 ， 在 最 小 化 延迟 ， 或 能 
量 ， 或 面积 情况 下 ， 都 可 能 会 有 不 同 的 最 终结 构 。 

7.4.1.2 处 理 硅 通 孔 

本 节 中 描述 的 3D 结构 缓存 要 求 数量 较 多 的 硅 通 孔 。 例 如 ， 在 列 堆 笃 结构 中 ， 
缓存 需要 两 倍数 量 的 字 线 。 这 可 能 是 分 拆字 线 的 形式 ， 如 图 7-9b 所 示 ， 或 两 倍数 
量 的 原始 字 线 ， 如 图 7-9c 所 示 。 在 这 两 种 情况 下 ， 所 需 的 层 间 连接 为 每 条 字 线 一 
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条 硅 通 孔 。 在 理想 情况 下 ， 所 有 这 些 硅 通 孔 应 放置 在 一 列 中 ， 如 图 7-10a 所 示 。 但 
是 ， 如 果 硅 通 孔 的 间距 大 于 字 线 间距 ， 可 能 会 出 现 问 题 。 图 7- 10b 表明 ， 较 大 的 
硅 通 孔 的 间距 会 导致 硅 通 孔 彼 此 重 登 。 





d2djf fL Re 、 






1 到 2 解码 


Al 7-10 对 于 列 对 列 上 3D 的 SRAM 拓扑 的 行 译 码 器 的 详情 : a) 足够 小 的 TSV; 
b) 太 大 的 TSV; c) 可 替代 布局 容纳 的 大 规模 TSV 


5j 2D 发 片 中 用 于 金属 层 间 连接 的 通 孔 放置 类 似 ， 硅 通 孔 可 以 重新 定位 以 适应 
布局 约束 ， 如 图 7-10c 所 示 。 与 硅 通 孔 放 置 在 模块 之 间 用 于 通信 的 例子 类 似 (第 
7.3.2 市 图 7-7)， 这 可 能 需要 一 些 额 外 的 层 间 布线 ， 使 信号 从 行 译 码 器 输出 到 硅 通 
fu, 然后 再 返回 到 原始 的 字 线 。 只 要 该 附加 的 布线 开销 (包括 硅 通 孔 ) 远 小 于 由 
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3D 结构 带 来 的 布线 减少 ，3D 缓存 就 将 提供 一 个 净 延 迟 效 益 。 在 一 个 前 面 对 后 面 的 
3D 结构 中 ， 硅 通 孔 必须 穿 过 有 源 层 ， 这 会 影响 晶体 管 的 布局 。 在 这 种 情况 下 ， 需 
要 附加 空间 分 配给 硅 通 孔 ， 这 又 增加 了 缓存 的 整体 尺寸 。 

当 信号 传输 被 限制 (例如 ， 当 传输 信号 的 数量 超过 可 用 硅 通 和 孔 ) 时 ,信号 和 
计算 可 以 彼此 折 中 。 图 7-11a 示 出 了 用 于 16 位 字 线 SRAM 的 行 译 码 器 线 拆 分 / 横 跨 
2 层 的 情形 。 其 结果 是 ， 需 要 16 个 硅 通 孔 (每 字 线 1 个 )。 图 7-11b 示 出 了 为 一 种 
可 能 的 布局 , 减少 一 半 的 硅 通 了 和 孔 的 字 线 的 数量 , 但 要 复制 额外 的 行 译 人 码 各 。 
图 7-11c 借 此 更 进一步 降低 了 一 半 硅 通 孔 的 数量 ， 但 增加 了 更 多 的 行 译 码 器 逻辑 。 
这 两 种 组 合 的 总 延迟 将 可 能 是 近似 的 ， 但 越 来 越 多 的 逻辑 译 码 需 复制 将 导致 更 高 的 
功 耗 成 本 。 然 而 ， 合 理 地 应 用 这 样 的 方法 给 设计 者 提供 了 更 多 的 技术 选择 来 优化 一 
个 特定 块 的 3D 设计 。 





a) b) c) 


图 7-11 TEAM Sa: a) 16 个 TSV; b) 8 个 TSV, 但 一 个 额外 水 平 的 
RETI ae a; c) 4 个 TSV 具有 两 级 重复 逻辑 


7.4.2 运算 单元 的 三 维 分 拆 


缓存 和 其 他 的 SRAM 结构 占用 了 现代 高 性 能 微 处 理 器 的 绝 大 部 分 芯片 面积 ， 
但 微 处 理 大 中 其 他 逻辑 组 件 对 性 能 也 十 分 关键 。SRAM 的 结构 是 非常 有 规律 的 ， 并 
且 分 拆 绪 构 的 不 同 策略 也 是 直观 的 。 对 于 含有 更 多 的 逻辑 和 更 少 规则 的 其 他 逻辑 模 
块 ， 分 拆 策 略 可 能 不 那么 直观 。 在 本 节 中 ， 我 们 将 探索 3D 分 拆 运 算 单元 的 设计 。 
我 们 特别 专注 于 整数 加 法 器 ， 因 为 它们 是 逻辑 和 互 连 线 的 组 合 ， 具 有 一 定 的 特定 结 
构 和 规律 ， 但 规律 性 不 如 SRAM 阵列 。 


7.4.3 三 维 加 法 器 
虽然 加 法 器 有 很 多 实施 方式 ， 在 这 部 分 我 们 只 关注 经 典 的 超前 进位 加 法 器 。 许 
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多 技术 用 于 3D 分 割 可 以 扩展 或 修改 ， 以 适应 其 他 类 型 的 计算 单元 ， 诸 如 乘法 噬 和 
移 位 器 。 图 7-12a 显示 了 一 个 N=16 位 超前 进位 加 法 器 的 简单 结构 图 。 关 键 路 径 在 
于 沿 着 从 位 [0] 开始 的 进位 传播 生成 逻辑 ， 贯 穿 树 形 结构 ， 然 后 到 位 [n-1]. 





X .3 


位 15 位 0 位 15 位 0 





fz8-11 位 0~3 





c) d) 


图 7-12 a) 两 维 先 行进 位 加 法 旧 (LCA) 的 电路 ; b) 3D LCA 加 法 器 与 输入 的 分 区 ; 
c) 3D LCA 显著 度 划 分 ; d) 混合 显著 度 划 分 3D LCA 


有 几 种 自然 的 方式 来 划分 加 法 器 。 图 7-12b 显示 了 一 种 实施 方式 ， 即 根据 输入 
来 划分 加 法 器 。 在 这 种 方式 下 ， 输 入 x 被 放 在 底层 ， 输 入 y 放 在 顶层 。 这 也 需要 第 
一 级 传播 逻辑 分 开 跨 过 两 层 ， 需 要 至 少 每 位 一 个 硅 通 孔 。 由 于 硅 通 孔 和 传播 逻辑 的 
大 小 和 间距 限制 ， 加 法 器 的 整体 宽度 可 能 被 减 小 。 最 好 的 情况 下 ， 如 图 中 所 示 ， 会 
使 沿 着 关键 的 进位 传播 生成 路 径 的 所 有 导线 长 度 (在 水 平方 向 ) wE GR, E 
辑 的 第 一 级 之 后 ， 所 有 其 余 电路 留 在 顶层 上 。 

分 拆 加 法 器 的 第 二 种 方法 是 根据 重要 性 。 我 们 可 以 将 最 不 重要 的 位 
(E [0:5 - 1] ) 放 在 最 底层 ， 把 最 重要 的 位 放 在 最 顶层 。 图 7- 12e 显示 了 这 种 广 
法 的 示意 图 。 注 意 在 初始 的 2D 电路 中 最 长 的 线 (那些 从 根 节点 出 去 和 进来 的 线 ) 
已 经 有 效 的 被 一 条 非常 短 的 硅 通 孔 替代 ， 但 是 所 有 剩 下 的 线 长 没有 改变 。 注 意 和 之 


前 的 输入 分 拆 方法 相 比较 ， 只 有 根 节点 需要 来 自 2 层 的 信号 ， 因 此 总 的 硅 通 孔 需求 
量 根据 输入 nn 的 大 小 决定 。 
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还 有 许多 其 他 可 能 的 重 排 。 图 7-12d 显示 了 一 种 显著 的 分 拆 方式 的 变形 ， 其 中 
IE n/2 位 被 放 在 电路 的 右 侧 ， 较 高 的 位 被 放 在 电路 的 左 侧 。 结 果 ， 一 些 中 间 的 线 被 
硅 通 孔 代 替 ， 最 后 级 的 线 长 也 已 被 减 小 。 所 有 的 3 个 3D 组 合 方式 能 看 作 是 相同 的 
基本 设计 的 不 同 实例 ， 其 中 变化 的 参数 是 跨越 两 个 层 的 树 。 在 划分 输入 的 方式 中 ， 
在 树 的 第 一 个 级 (在 叶 处 ) 跨越 两 个 屋 ， 而 具有 重要 性 的 分 区 ， 它 是 跨越 两 个 层 
的 根 节点 。 图 7- 12d 的 配置 就 像 是 其 他 两 个 的 混合 体 : 树 的 项 部 的 两 级 (在 根部 ) 
在 结构 上 相同 于 图 7-12b 的 顶部 ， 树 的 底部 三 级 和 图 7- 12c 的 底部 非常 相似 。 这 样 
的 布局 用 以 支持 SIMD 运算 ， 其 中 一 个 加 法 发 生 在 右边 ， 一 个 加 法 发 生 在 左边 。 一 
个 在 物理 上 独立 的 位 置 定位 逻辑 加 法 的 操作 ， 可 以 决定 由 于 功 耗 和 门 控 所 产生 的 互 
连 线 和 控制 带 来 的 成 本 。 


7.4.4 接口 单元 


最 佳 分 拆 功 能 单元 的 方式 取决 于 设计 目标 ， 如 最 小 化 延迟 、 功 耗 或 面积 。 最 住 
的 分 拆 单元 集合 可 包括 组 织 组 合 ， 其 中 各 个 单元 以 局 部 亚 最 佳 方式 分 割 。 考 虑 到 在 
图 7-13a 中 显示 的 3 个 相关 单元 块 : 一 个 寄存 器 、 一 个 算法 单元 和 一 个 数据 缓存 ， 
通过 它们 可 按 位 划分 来 分 拆 寄存 天 〈 最 不 显著 的 位 在 最 低层 ) ， 实 现 最 低 的 延迟 。 
输入 划分 (在 不 同 层 有 不 同 的 端口 ) 数据 缓存 是 缓存 拆 分 的 最 佳 配置 ，ALU 最 受 
益 于 一 种 混合 的 组 合 结构 ， 如 之 前 结尾 处 描述 的 。 这 并 不 完全 令 人 尺 讶 ， 因 为 每 个 
块 具 有 特性 不 同 的 关键 路 径 ， 因 此 不 同 的 技术 可 能 是 必要 的 ， 以 获得 最 大 的 收益 。 

处 理 天 由 许多 相互 关联 的 模块 组 成 ， 然 而 选择 分 开 其 中 的 一 个 模块 ， 还 可 能 对 
其 他 的 模块 有 影响 。 考 虑 到 相同 的 3 个 模块 ， 其 中 从 寄存 需 堆 读 出 的 数值 转 到 加 法 
而 来 计算 一 个 地 址 ， 反 过 来 提供 给 数据 高 速 绥 冲 存储 右 ， 最 终 这 些 结果 从 存储 器 中 
得 到 并 写 回 寄存 天 推 。 图 7-13b 说 明 ， 这 些 模块 用 最 小 化 每 个 单独 模块 的 延迟 的 方 
式 ， 每 个 模块 已 经 拆 分 为 两 层 。 结 有 果 需 要 大 量 的 硅 通 孔 ， 因 为 每 个 模块 的 接口 是 不 
一 样 的 。 当 数据 从 寄存 器 堆 计算 出 ， 两 个 计算 的 最 不 重要 的 位 在 底层 。 然 而 ， 这 个 
加 法 需 需 要 位 放 在 不 同 的 层 。 加 法 融 的 输出 反 过 来 可 能 不 能 正确 地 对 准 数据 缓存 。 
数据 缓存 的 输出 最 终 可 能 需要 使 用 劳 路 网 络 将 结果 直接 转发 给 两 个 加 法 器 和 寄存 
船 ， 因 此 需要 更 多 的 硅 通 孔 来 处 理 所 有 不 同 的 接口 。 所 有 这 些 附 加 的 硅 通 孔 和 绕 线 
都 增加 了 绕 线 开销 ， 减 小 了 通过 3D 结构 带 来 的 收益 。 其 结果 是 ， 最 佳 整体 配置 可 
涉及 简单 地 使 用 根据 重要 性 拆 分 〈 例 如 ) 所 有 的 组 件 ， 如 图 7-13c 所 示 。 而 这 意 
味 着 ， 在 局 部 我 们 使 用 亚 最 佳 3D 结构 的 加 法 器 和 数据 缓存 仍 可 获得 全 局 最 优 
配置 。 

一 个 块 3D 拆 分 策略 的 选择 对 于 在 处 理 需 的 其 他 许多 块 可 以 有 深远 的 影响 。 任 
何 根据 重要 性 拆 分 数据 路 径 的 方式 很 可 能 迫使 所 有 其 他 数据 路 径 以 相同 的 方式 拆 
Do MARERITT ARE 3D 结构 选择 可 能 反 过 来 限制 解码 逻辑 的 布局 。 例 如 ， 
如 有 果 指 令 高 速 缓 冲 存储 占 传 送 其 指令 的 一 半 到 底层 ,余下 的 指令 传递 到 顶层 ， 则 译 
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图 7-13 a) 2D FAE (RF), ZRA (ALU) 和 具有 数据 通路 和 旁 路 的 一 个 数据 
缓存 ; b) 每 个 单元 使 用 不 同 的 划分 方法 的 3D 结构 ; c) 所 有 单元 使 用 相同 拆 分 的 3D 结构 


码 逻 辑 将 类 似 地 将 一 半分 配 于 每 个 层 中 。 这 些 都 不 是 硬 约束 ， 但 不 同 接口 的 成 本 来 
源 于 使 互 连 线 和 信和 号 匹配 的 附加 硅 通 孔 。 
7.5 结论 


从 计算 机 架构 师 的 角度 来 看 ，3D 集成 提供 了 两 个 主要 的 好 处 。 第 一 ，3D 空间 
物理 结构 能 显著 降低 导线 长 度 。 第 二 ， 不 同 制造 技术 的 器 件 可 以 一 种 3D 38 06977 
式 紧密 集成 并 结合 。 
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像 “3D 减 小 线 长 ”的 简单 陈述 有 许多 不 同 的 解释 方式 ， 可 用 于 微 处 理 硕 设 
计 。 计 算 机 架构 师 怎 样 利 用 互 连 线 长 度 的 减少 ? 之 前 的 部 分 已 经 讨论 了 3D 集成 处 
理 器 设计 的 具体 技术 ， 我 们 现在 讨论 一 些 更 高 级 别 的 影响 。 首 先 ， 和 前 面部 分 的 技 
术 并 不 一 定 是 相互 排斥 的 。 例 如 ， 一 种 可 能 的 选择 来 堆 倒 茶 些 块 在 其 他 块 的 项 部 同 
时 分 割 一 些 单元 跨越 多 个 层 ， 然 后 在 第 3 层 集成 一 个 完整 末 级 缓存 。 处 理 器 的 不 同 
模块 具有 不 同 的 设计 目标 和 约束 条 件 ， 从 而 需要 不 同 的 3D 设计 策略 ， 以 提供 最 佳 
的 解决 方案 。 

从 整体 结构 的 角度 来 看 ， 对 于 减少 导线 也 提出 了 几 种 不 同 的 选择 。 正 如 之 前 部 
分 的 讨论 ， 线 的 减少 和 再 布局 能 使 整个 流水 线 级 减少 。 在 其 他 的 情况 下 ， 重 要 的 线 
延迟 的 两 个 阶段 可 以 合并 为 一 个 阶段 。 除 了 由 于 更 短 的 流水 线 使 得 性 能 提高 ， 还 可 
以 得 到 整体 复杂 度 的 减 小 。 例 如 ， 这 度 执行 流水 线 可 能 需要 多 层次 的 结果 劳 路 ， 使 
相关 的 指令 背 到 背 循环 执行 而 没有 拖延 。 延 迟 时 间 、 面 积 、 功 耗 和 其 他 币 规 劳 路 设 
计 相 关联 的 复杂 性 对 许多 相关 的 参数 具有 巨大 影响 “ 。 这 样 ， 消 除 一 个 或 多 级 的 
旁 路 能 大 幅度 减 小 复杂 度 。 

流水 线 级 的 减 小 有 许多 显著 的 好 处 ， 例 如 性 能 的 提升 、 流 水 线 控制 逻辑 的 减 小 
和 功 耗 的 降低 。 然 而 ， 这 些 变化 可 能 使 得 进一步 整体 提升 流水 线 的 架构 成 为 可 能 。 
例如 ， 有 许多 缓存 器 和 队列 在 现代 超标 量 处 理 咒 中 ， 有 几 个 周期 的 缓冲 指令 以 容忍 
各 种 流水 线 延 迟 。 通 过 减少 整体 的 流水 线 长 度 ， 减 小 一 些 指令 的 大 小 是 可 能 的 ,或 
者 在 某 些 情况 下 其 至 可 以 完全 地 删除 它们 。 有 许多 微 架 构 技 术 被 设计 来 容忍 互 连 线 
的 延 时 ,但 是 如 果 3D 集成 极 大 地 减 小 这 些 关 键 路 径 的 影响 ,流水 线 的 整体 架构 将 
可 能 为 功率 、 面 积 和 复杂 度 等 提供 收益 。 

代替 消除 流水 线 阶 段 ，3D 也 可 能 被 用 来 减少 每 个 流水 线 阶段 的 时 间 消 耗 。 这 
导致 更 高 的 时 钟 频 率 和 因此 提高 了 性 能 ， 虽然 可 能 有 更 高 的 功率 消耗 。 注 意 这 区 别 
于 传统 增加 时 钟 速度 的 流水 线 技术 。 传 统 上 ， 增 加 处 理 器 的 频率 需要 次 驱动 流水 线 
到 大 量 的 短 的 〈 低 延 时 的 ) 阶段 。 用 3D 技术 ， 阶 段 的 总 数量 可 能 被 保持 常量 同时 
减少 每 个 阶段 的 延 时 。 在 床 柜 的 流水 线 ， 这 种 架构 简单 地 将 固定 工作 量 和 休息 变 为 
更 小 的 片段 ， 而 3D 技术 实际 的 减少 了 总 的 工作 量 通过 移 除 线 的 延 时 。 

另外 的 淤 在 的 选择 是 不 使 用 减少 互 连 线 的 方法 来 提高 性 能 而 是 将 时 间 裕 度 转 化 
为 功 耗 的 减少 。 例 如 ， 关 键 路 径 的 门 和 驱动 顺 经 常 使 用 尺寸 更 大 的 晶体 管 驱动 电容 
来 增加 速度 。 如 果 去 除 这 条 路 径 可 以 减少 电路 的 延 时 ， 那 么 电路 的 设计 者 可 以 减少 
晶体 管 的 大 小 ， 这 样 反 过 来 减少 他 们 的 功率 消耗 。 这 为 完全 的 改变 设计 提供 了 机 
会 ， 从 快速 的 动态 的 /多 米 诺 逻辑 转化 为 低 功率 的 CMOS 门 设计 。 在 其 他 的 单元 块 
中 ， 唱 体 管 可 具有 更 长 的 沟 道 ， 这 使 得 它们 更 慢 ， 但 减少 了 它们 的 漏电 流 。 

更 早 的 时 候 ， 我 们 讨论 了 不 同 的 3D 类 型 (PER A) 如 何 结合 到 一 
个 系统 中 ， 用 不 同 的 方式 优化 不 同 的 模块 。 以 类 似 的 方式 ，3D 技术 可 能 以 不 同 的 
方式 应 用 到 不 同 的 处 理 需 模块 来 优化 不 同 的 设计 目标 ， 例 如 时 序 、 面 积 或 者 功 耗 。 
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件 的 再 设计 、 测 试 和 验证 的 成 本 也 是 十 分 重要 的 。 在 一 些 情况 下 ， 精 细 划 分 的 3D 
模块 可 以 提供 更 大 的 好 处 ， 但 是 工程 上 的 成 本 和 对 整体 项 目 计 划 的 影响 和 风险 ， 可 
能 迫使 设计 者 使 用 更 加 保守 的 结构 。 i 

在 本 章 中 ， 我们 探讨 3D 集成 在 几 个 不 同 级 别 的 应 用 ， 但 是 没有 下 接 地 试图 回 
答 一 个 精确 的 3D 架构 是 什么 这 个 问题 。 这 时 ， 我 们 只 能 猜测 答案 ， 而 最 佳 答案 将 
取决 于 许多 未 知 因素 。 正 如 本 章 讨论 多 次 的 ， 结 构 的 确切 组 合 将 在 很 大 程度 上 依赖 
于 制造 工艺 中 所 提供 的 硅 通 孔 的 精确 尺寸 和 间距 。 随 着 冷却 技术 的 未 来 改进 ， 计 算 
机 架构 师 也 许 能 够 采取 更 紧密 的 结构 ， 通 过 减少 互 连 线 解决 问题 而 不 是 专注 于 热管 
理 问题 。 如 果 冷 却 技术 没有 迅速 进步 ， 那 么 最 佳 的 3D 设计 可 能 看 起 来 非常 不 同 ， 
因为 架构 师 必 须 更 仔细 地 管理 处 理 顺 的 功 耗 密度 。 


So 3 


通过 数 年 与 许多 研究 人 员 人 合作， 本章 中 提出 的 很 多 工作 和 思想 得 到 发 展 。 特 别 
是 曾 在 英特尔 公司 工作 过 的 Bryan Black 和 其 他 研究 人 人员， 宾夕法尼亚 州立 大 学 的 
Yuan Xie 和 佐治 亚 理工 学 院 的 Kiran Puttaswamy。 该 研究 的 资金 和 设备 也 由 美国 国 
家 科学 基金 会 、 英 特 尔 公司 ， 以 及 由 半导体 研究 公司 的 焦点 中 心 研究 项 目 资助 下 的 
电路 和 系统 解决 方案 中 心 (C282) 共同 资助 。 
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第 8 章 三 维 (3D) 片上 网 络 架 构 


Yuan Xie Narayanan Vijaykrishnan Chita Das 

片上 互 连 被 预测 是 设计 具有 多 个 同 质 或 异 质 处 理 需 核 和 功能 模块 的 多 处 理 天 多 
Bob (CMP) 和 片上 系统 (SoC) 架构 的 基础 性 问题 。 为 减轻 互 连 危 机 ， 一 个 可 
靠 的 选择 是 片上 网 络 (NoC) ， 其 中 一 个 通用 片上 互连网 络 使 用 开关 和 矩阵 连接 IP 核 
或 处 理 单 元 ， 代 替 了 传统 定制 全 局 片上 互 连 。 这 样 基于 包 的 通信 网 络 由 于 其 可 规划 
性 已 经 被 广泛 接受 并 被 认为 是 未 来 CMP 的 SoC 的 有 效 解决 方案 。 在 本 章 中 ， 我 们 
研究 三 维 集成 电路 和 NoC 的 两 者 组 合 ， 因 为 它们 都 是 为 减轻 互 连 规模 造成 的 挑战 
而 设计 的 。 本 章 将 从 片上 网 络 架 构 的 简要 介绍 开始 ， 随 后 讨论 多 种 网 络 拓扑 结构 在 
3D NoC 设计 中 的 设计 空间 ， 同 时 探讨 3D 片上 路 由 天 设计 的 多 种 技术 。 最 后 ， 介 
绍 一 个 带 有 堆 和 县 在 多 核 CMP 上 的 存储 器 的 3D NoC 设计 实例 。 


8.1 介绍 


随 着 工艺 尺寸 的 缩小 ， 使 在 心 片 上 集成 10 亿 个 晶体 管 成 为 现实 。 例 如 ， 最 新 
的 Intel Xeon 处 理 器 包括 23 亿 个 晶体 管 ”。 这 样 的 集成 层次 必须 使 用 并 行 机 制 来 
有 效 利用 品 体 管 。 于 是 ， 现 代 超 线程 处 理 器 引入 了 许多 复杂 的 微 结 构 特 性 ， 如 多 指 
令 处 理 、 动 态 规划 、 乱 序 执行 、 投 机 执行 和 动态 分 支 预测 。 然 而 ， 为 了 保持 性 
能 的 增长 ， 未 来 的 超 线程 微 处 理 需 甚至 将 依赖 更 复杂 的 架构 创新 。 电 路 限制 和 受 限 
的 指令 级 并 行 机 制 将 削弱 通过 增加 架构 复杂 度 的 超 线 程 模 型 带 来 的 益处 。 增 加 
的 宽度 造成 队列 尺寸 和 寄存 带 堆 复杂 度 平方 级 的 增长 。 此 外 ， 随 着 执行 单元 数目 的 
增加 ， 连 线 和 互 连 逻 辑 复杂 度 开 始 反 过 来 影响 性 能 。 这 些 问 题 导致 多 处 理 器 芯 
(CMP) 作为 一 种 可 行 的 蔡 代 复杂 超 线程 架构 的 方案 出 现 。CMP 是 由 简单 、 紧 凑 处 
理 核 组 成 的 非 中 心 式 的 微 架构 ， 其 随 集成 度 的 增加 可 更 有 效 地 规划 。9 核 单 元 处 理 
28/5. 8 Ez Sun UltraSPARC TI 处 理 器 '” 8 核 Intel Xeon 处 理 器 后: ， 以 及 64 核 
TILEPro64 fi Ast Ah BBS") 都 标志 着 这 类 系统 不 断 增长 的 普及 程度 。 

在 设计 具有 多 个 同 质 或 异 质 核 和 功能 块 的 多 核 多 处 理 器 芯片 (CMP) 架构 中 ， 
一 个 基本 问题 是 片上 互 连 和 矩阵 的 设计 。 如 第 1 章 所 讨论 的 一 样 ， 片 上 互 连 被 认为 将 
是 在 工艺 进一步 缩小 到 纳米 级 别 时 ， 人 性能、 能 量 效 率 和 可 人 靠 性 方面 的 主要 瓶颈 ” 。 
这 主要 因为 线 网 的 按 比 例 缩 小 会 增加 电阻 ， 并 因而 造成 线 网 延迟 和 功 耗 的 增加 ， 同 
时 更 紧凑 的 间距 影响 信号 完整 性 ， 从 而 造成 可 靠 性 问题 。 因 此 ， 设 计 可 按 比 例 缩小 
的 高 性 能 的 、 可 靠 的 、 能 量 效率 高 的 片上 互 连 是 多 核 /SocCc 设计 范例 成 功 的 关键 ， 
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并 已 成 为 重要 的 致力 研究 方 回 。 

传统 上 ， 基 于 总 线 的 互 连 广泛 应 用 于 核 数 目 较 少 的 网 络 。 然 而 ， 对 于 基于 总 线 
的 互 连 ， 核 数目 的 增长 将 成 为 其 性 能 的 设计 瓶颈 。 于 是 ， 它 们 不 被 认为 是 未 来 具有 
多 个 核 的 多 核 系统 的 合理 解决 方案 。 为 克服 这 些 限 制 ， 一 个 可 靠 的 选择 是 片上 网 络 
(NoC)54 ， 其 中 通用 片上 互连网 络 通过 使 用 开关 矩阵 或 路 由 器 来 连接 IP 核 或 处 理 
单元 (PE) ， 替 代 了 传统 的 定制 全 局 片上 连 线 。 典 型 的 ， 处 理 器 核 使 用 分 组 交换 协 
议 互 相通 信 ， 其 将 数据 打包 并 通过 片上 网 络 传输 。 与 传统 宏 网 络 类 似 ，Noc 可 规划 
性 好 。 图 8-1 示 出 了 NoC 思想 的 一 个 概念 图 ， 其 中 许多 核 通 过 片上 网 络 路 由 天 连 
接 ， 而 不 是 通过 片上 总 线 。 

尽管 3D 集成 电路 和 NoC ”都 被 认为 是 互 连 可 规划 需求 的 可 替代 方 
案 , 但 将 两 种 技术 结合 在 一 起 设计 3D NOC 中 的 挑战 直到 最 近 才 被 意 
305810141055 54,53,16,17 211 , 

第 7 曹 给 出 了 使 用 3D 集成 (通过 将 缓存 和 功能 单元 分 割 到 多 层 ) 的 单 核 微 处 
理 器 设计 和 使 用 SRAM/DRAM 存储 器 堆 释 的 双核 设计 。 然 而 ,， 所 有 第 7 章 中 讨论 
的 设计 均 不 包含 片上 网 络 架 构 。 在 本 章 中 ， 我们 将 关注 如 何 结合 3D 集成 和 片上 网 
络 ， 以 得 到 作为 处 理 器 核 和 存储 器 块 之 间 的 通信 网 络 的 结构 。 

在 以 下 的 章节 中 ， 首 先 给 出 NoC 的 简要 介绍 ， 随 后 讨论 多 种 3D 片上 网 络 拓扑 
结构 和 3D 路 由 器 设计 的 方法 ， 并 且 将 给 出 一 个 使 用 3D NoC 架构 的 存储 器 堆 秋 在 
多 处 理 器 芯片 (CMP) 上 的 实例 。 


8.2 片上 网 络 的 简要 介绍 


片上 网 络 架构 被 认为 是 纳米 时 代 出 现 的 互 连 需求 的 一 个 可 能 的 解决 方案 。 
在 片上 网 络 架 构 中 ,通用 片上 互连网 络 通过 使 用 开关 和 矩阵 或 路 由 器 连接 IP 核 或 处 
理 单元 (PE) 代替 了 传统 定制 全 局 片上 连 线 。PE 通过 路 由 器 发 送信 息 包 相互 通 
信 。 这 通常 称 为 基于 分 组 互 连 。 

典型 的 2D NoC 是 由 一 定数 量 的 处 理 单元 (PE) 排列 在 类 似 方 格 的 网 格 结构 
(更 像 曼 哈 顿 网 格 ) 中 。PE 通过 其 下 基于 包 的 网 络 结构 互 连 。 每 个 PE 都 是 通过 网 
络 接口 控制 器 (NIC) 连接 到 网 络 路 由 器 。 反 过 来 ， 每 个 路 由 器 连接 到 4 个 基本 方 
四 上 的 相 邻 的 路 由 需 。 路 由 需 端 口 的 数目 定义 为 路 由 器 的 阶 数 。 


8.2.1 NoC 拓扑 


网 络 拓 扑 是 片上 网 络 设计 的 一 个 重要 方面 ， 因 为 它 决 定 了 功 耗 一 性 能 的 度量 标 
准 。 例 如 ，NoC 拓扑 决定 了 零 负 载 延 时 、 对 分 带宽 、 路 由 器 微 结构 、 布 线 复杂 度 、 
通道 长 度 ， 以 及 整体 网 络 功 耗 。 

由 于 网 格 结构 拓扑 “。 ( 见 图 8-1) 的 低 复杂 度 和 片面 2D 版 图 特性 ， 其 已 经 在 
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平面 CMP 很 常见 。 这 样 一 个 简单 固定 的 拓扑 结构 具有 紧凑 的 2D 版 图 。 其 他 如 集中 
网 格 和 打 平 蝴蝶 (flatten butterfly) 的 拓扑 结构 由 于 它们 的 多 种 优点 也 在 NoC 设计 
中 有 所 应 用 。 





图 8-1 概念 片上 网 络 架构 : EB B: D ss 
(NIC) 连接 到 片上 网 络 路 由 做 CR) 


例如 ， 集 中 网 格 (Cmesh) “保持 了 网 格 的 优点 ， 并 通过 共享 多 个 处 理 元 素 间 
的 路 由 器 努力 解决 可 规划 性 问题 。 共 享 路 由 器 的 节点 数目 称 为 网 络 的 集中 度 。 图 
8-2 示 出 了 64 节点 的 Cmesh 版 图 布局 。 这 样 的 拓扑 减 小 了 路 由 器 的 数目 ， 从 而 使 
跳跃 数 减 小 并 得 到 网 格 上 很 好 的 延迟 节省 。Cmesh 阶 数 (端口 数 ) 为 8。 由 于 其 增 
长 较 慢 的 对 分 数 ， 也 可 以 提供 非常 宽 的 通道 数 (高 于 5/2 位 )。 

男 外 一 个 例子 是 打 平 蝴蝶 拓扑 ”， 其 通过 同时 采用 集中 方式 和 到 非 相 邻 节 点 
的 更 长 链接 的 方式 来 实现 丰富 的 连接 度 ， 减 小 跳跃 (hop 传递 ) 数 。 更 高 的 连接 度 
增加 了 对 分 市 宽 并 需要 路 由 右上 具有 更 多 的 端口 (更 高 的 阶 数 )。 这 里 增加 的 对 分 





一 条 线 被 用 来 表示 两 根 
导线 在 两 个 方向 上 


图 8-2 集中 网 格 片 上 网 络 拓扑 图 8-3 64 节点 的 打 平 蝴蝶 拓扑 
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富 的 连接 度 通 过 减少 跳跃 数 抵消 了 串联 延迟 。 这 样 的 拓扑 阶 数 在 7~13 之 间 ， 取 决 
于 网 络 大 小 和 较 小 的 通道 数 (高 于 128 位 )。 


8. 2.2 NoC 路 由 设计 


图 8-4 示 出 了 一 个 基本 的 NoC 路 由 副 结 构 。 路 由 右 具 有 PP 个 输入 和 P 个 输出 
通道 /并 口 (端口 的 数目 定义 为 阶 数 )。 当 P=5 (或 阶 数 为 5) 时 ， 其 为 一 个 典型 
的 用 于 网 格 结构 的 使 用 5 x5 交叉 的 2D NoC 路 由 器 。 当 网 络 拓扑 改变 时 ， 路 由 器 
的 复杂 度 也 改变 。 例 如 ， 一 个 CmeshC- 网 格 网 络 拓 扑 需 要 阶 数 为 8 的 路 由 器 设计 。 
路 由 计算 单元 、RC 、 处 理 传人 包 的 包头 数据 微 片 〈 数 据 微 片 是 流 控 制 的 最 小 单元 ; 
包 由 多 个 数据 微 片 组 成 ) ， 并 基于 包 的 目的 地 在 选中 的 输出 PC 上 给 出 合适 的 输出 
物理 通道 /端口 (PC) 和 /或 合法 的 虚拟 通道 (VC) 。 路 由 可 以 是 确定 性 的 或 适应 
性 的 。 虚 拟 通道 分 配 单元 (VA) 在 所 有 竞争 访问 到 相同 输出 VC 的 包 之 间 仲 裁 并 
选 出 胜利 者 。 开 关 分 配 单元 (SA) 在 所 有 要 求 访 问 交叉 的 VC 间 仲 裁 。 胜 利 的 数 
据 微 片 可 以 随后 穿 过 交叉 并 移动 到 它们 对 应 的 输出 链 。 
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图 8-4 有 5 个 输入 端口 和 5 个 输出 端口 的 基本 2D NoC 路 由 器 


8.2.3 NoC 设计 的 更 多 信息 


片上 网 络 设计 方法 学 吸引 了 众多 工业 关注 。 例 如 ，Tilera Corporation 构建 了 64 
FAC GN Ab SS TILE64“ ， 包 含 64 个 完整 配置 可 编程 核 ， 使 用 基于 网 格 的 
NoC 染 构 连接 。Intel 80 核 TeraFLOPS 处 理 器 ”组 成 了 一 个 片上 网 络 架 构 。 该 80 
核心 片 以 8 x 10PE 核 和 包 开 关 路 由 器 阵列 排列 ， 使 用 网 格 拓扑 (与 图 8-1 类 似 ) 
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连接 。 图 8-5 示 出 了 处 理 器 的 NoC 块 结构 框图 。 每 个 PE 核 包含 两 个 流水 线 浮 点 乘 

法 累加 器 (FPMAC), ， 通 过 接口 块 (RIB) 连接 到 路 由 器 。 路 由 器 为 带 均 步 接口 

(MSINT) 的 基于 交叉 的 5 端口 设计 。 网 格 NoC 网 络 提供 了 2Tbit/s 的 对 分 带宽 。 
为 了 解 更 多 的 片上 网 络 架构 背景 ， 可 以 参考 书 * 1 和 一 些 研究 文献 。 


Mesochronous 接口 


32GB/s 连接 《一 ) 







指令 寄存 器 (IMEM) 


Kk 8-5 Intel 80 核 TeraFLOPS 处 理 器 NoC 框图 


8.3 三 维 NoC 架构 


ASAE 3D NoC 架构 可 能 的 架构 设计 探索 。 将 2D 范例 扩展 到 三 维 造成 了 有 
趣 的 设计 挑 成 。 已 知 片 上 网 络 受 面 积 和 功 耗资 源 的 严重 约束 ， 同 时 设计 者 还 希望 它 
们 提供 极 低 的 延 公 ,那么 关键 的 问题 是 如 何在 这 些 相 对 的 设计 线 中 取得 合理 的 折 
中 。 在 本 节 中 ， 我 们 探索 在 考虑 上 述 约束 的 情况 下 基本 2D NoC 如 何 实现 向 三 维 的 
扩展 。 


8.3.1 对 称 的 NoC 路 由 设计 
让 基本 2D NoC 路 由 器 适应 3D 布局 自然 而 简单 的 扩展 就 是 简单 地 在 每 个 路 由 
全 上 加 入 两 个 附加 的 物理 端口 。 一 个 负责 “上 ”， 一 个 负责 “下 ”， 再 加 上 相关 的 


缓冲 器 、 仲 裁 器 (VC 仲裁 和 开关 仲裁 ) 以 及 交叉 扩展 。 我 们 能 通过 在 每 层 ( 因为 
所 有 方向 的 对 称 路 由 成 为 对 称 NoC) 添加 这 样 的 路 由 器 将 一 个 传统 NoC 网 络 扩展 
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到 三 维 。 因 为 屋内 和 层 间 移动 具有 相同 的 特征 : 逐次 跳跃 穿 过 ( 见 图 8-6)， 我 
们 称 该 结构 为 3D 对 称 NoC。 例 如 ， 从 4 层 芯 片 的 底层 移动 到 顶层 需要 3 次 网 络 
跳跃 。 


noch mbjegB 


m 





A WG dt ME F PE 





图 8-6 带 有 两 个 附加 输入 /输出 端口 (上方 和 下 方 ) 的 对 称 3D 片上 
网 络 路 由 器 ， 总 共 需 要 7 个 输入 端口 和 7 个 输出 端口 


这 种 结构 虽然 易于 实现 ， 但 具有 以 下 缺陷 : 

1) 它 浪 费 了 3D 芯片 可 忽略 的 层 间 距离 这 一 优越 特性 〈 例 如 ， 在 第 2 AP, 
我 们 发 现 晶片 的 厚度 可 以 小 到 几 十 微米 ) 。 由 于 在 垂直 方 癌 的 穿越 是 多 重 跳 路 ， 
将 消耗 与 层 内 移动 相同 的 时 间 。 当 然 ， 在 源 和 目标 间 的 跳跃 平均 数 不 会 由 于 将 
2D 设计 折 私 为 多 层 堆 堆 就 减少 ， 但 层 间 和 层 内 跳跃 是 无 法 区 别 的 。 此 外 ， 在 每 
次 跳跃 中 每 个 数据 微 片 必须 通过 缓冲 和 仲裁 ， 这 将 增加 层 间 上 下 移动 的 整体 
AER, 

2) 添加 两 个 附加 的 端口 必须 要 一 个 更 大 的 7 x7 交叉 ， 如 图 8-6b PIR ZIL 
变 大 效率 很 低 ， 见 表 8-1。 表 中 包括 本 节 中 涉及 的 所 有 交叉 类 型 在 90nm 工艺 综合 
实现 的 面积 和 功 耗 的 预算 。 显 然 ,7 x7 交叉 造成 了 面积 和 功 耗 成 本 相对 其 他 所 有 
架构 的 显著 增加 。 因 此 ， 从 某 种 角度 讲 ，3D 对 称 NoC 实现 是 基本 2D NoC 网 络 幼 
稚 的 扩展 。 

表 8-1 在 90nm 工艺 实现 的 交叉 开关 的 面积 和 功 耗 比较 


3) 由 于 在 3D 架构 中 垂直 和 水 平 连接 的 不 对 称 ， 有 几 个 方面 的 问题 ， 如 连接 
带宽 和 缓冲 分 配 ， 需 要 沿 3D 芯片 的 不 同方 向 定制 化 。 此 外 , Æ 3D as ^ BIB 
的 温度 梯度 和 工艺 变化 会 导致 相同 的 路 由 元 件 在 不 同 的 层 上 出 现 不 同 的 延迟 。 例 
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如 ， 在 距离 热 沉 最 远 的 层 上 工作 元 件 将 限制 整个 网 络 的 最 高 频率 。 
8.3.2 =4 (3D) NoC 总 线 混合 路 由 设计 


由 于 3D 电路 中 快速 的 垂直 互 连 和 连接 相 邻 核 的 水 平 互 连 间 线 网 长 度 的 差异 
(垂直 方向 为 几 十 微米 相对 于 水 平方 向 的 几 千 微米 ) ，3D 架构 天 生 就 具有 非 对 称 延 
迟 。 之 前 的 章节 证 明 ， 在 垂直 方向 上 〈 层 间 ) 具有 多 重 跳跃 通信 的 对 称 NoC 架构 
是 不 需要 的 。 

鉴于 非常 小 的 层 间 间 距 ， 单 跳 通 信 实 际 上 是 可 行 的 。 该 技术 反复 考虑 垂直 距离 
相对 于 层 内 距离 可 忽略 的 事实 ; 一 个 共享 介质 可 提供 任意 层 间 的 单 跳 穿越 。 该 实现 
开启 了 到 一 个 非常 广泛 共享 的 互 连 媒介 一 一 总 线 的 大 门 。Noc 路 由 器 可 以 在 垂直 方 
向 与 一 个 总 线 连接 混合 以 创建 如 图 8-7 所 示 的 3D NoC 总 线 混合 结构 。 该 混合 系统 
同时 提供 了 性 能 和 面积 优势 。 蔡 代 了 笨拙 的 7 x7 交叉 的 是 6 x6 交叉 ( 见 图 8-7)， 
即 在 基本 的 2D 5 x5 交叉 的 基础 上 增加 一 个 单独 的 附加 端口 。 附 加 的 连接 形成 了 
NoC 区 域 与 总 线 (SEH) 区 域 的 接口 。 总 线 连接 拥有 其 独立 的 专用 队列 。 该 队列 
由 中 央 仲 裁 器 控制 。 从 不 同 层 来 的 希望 上 /下 移动 的 数据 微 片 需要 仲裁 以 获得 共享 
介质 的 访问 权 。 图 8-8 示 出 了 垂直 通 孔 结构 的 纵 剖 面 图 。 该 图 说 明了 不 同 层 间 大 的 
通 孔 压 焊 点 没有 用 处 ; 它们 被 故意 做 大 来 应 对 制造 工艺 过 程 中 的 对 不 准 问题 。 结 果 
是 ， 巨 大 的 通 孔 压 焊 点 最 终 限 制 了 3D 芯片 的 






P 
垂直 总 线 — @ 
图 8-7 混合 3D NoC/ 总 线 架 构 。 路 由 器 具有 一 个 附加 输入 /输出 端口 来 连接 垂直 总 线 


ER I 3D 说 明 的 优 于 对 称 NoC 路 由 器 的 优点 ， 总 线 方式 还 受 困 于 一 个 主要 的 缺 
陷 ， 即 它 不 允许 在 第 三 维 并 发 通信 。 由 于 总 线 属 于 共享 介质 ， 在 任意 时 刻 它 只 能 同 
时 被 一 个 数据 微 片 使 用 。 这 严重 增加 了 在 高 网 络 负载 下 竞争 和 阻塞 的 可 能 性 。 因 
此 ， 虽 然 单 跳 垂直 通信 的 确 改善 了 整体 延迟 性 能 ， 但 层 间 带 宽 受 到 损失 。 更 详细 的 
3D NoC 总 线 混合 结构 的 内 容 见 本 章 参考 文献 [14]. 
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非 片 块 化 层 间 连接 





图 8-8 路 由 器 具有 一 个 附加 输入 /输出 端口 来 连接 垂直 总 线 ， 并 因此 需要 
6 个 输入 端口 和 6 个 输出 端口 。 总 线 通 过 3D 通 孔 实现 多 层 互 连 


8.3.3 真 三 维 (3D) 路 由 设计 


抛弃 以 前 的 选项 ,我们 可 以 设想 一 个 真正 的 3D 交叉 实现 ， 其 将 实现 垂直 连接 
在 整个 路 由 器 操作 中 的 无 缝 集成。 图 8-9 示 出 了 这 样 一 个 3D 交叉 的 版 图 布局 。 需 
要 说 明 的 一 点 是 交叉 的 传统 定义 一 一 在 2D 物理 版 图 的 背景 下 一 一 是 通过 一 个 连接 
点 实现 每 个 输入 连接 到 每 个 输出 的 开关 。 然 而 ， 将 该 定义 扩展 到 物理 3D 结构 就 意 
味 着 一 个 十 分 复杂 且 尺 寸 巨 大 的 开关 (考虑 到 随 多 个 层 数 而 增加 的 输入 输出 端口 
对 的 数目 ) 。 因 此 ， 我 们 选择 一 个 能 提供 通过 超过 一 个 连接 点 实现 一 个 输入 到 一 个 
输出 问 口 互 连 的 较 简单 的 结构 。 虽 然 这 样 的 配置 可 视 为 多 级 开关 网 络 ， 但 为 简便 起 
见 ， 我 们 仍 称 其 为 交叉 。 垂 直 的 连接 现在 嵌入 在 交叉 中 并 扩展 到 所 有 层 。 这 意味 着 
5 x5 交叉 的 使 用 ， 不 再 需要 附加 的 物理 通道 来 专门 用 于 层 间 通信 。 


4x4x4 3D 交 叉 







互 连 盒子 


片 块 化 连接 
( 穿 过 所 有 层 单 跳 ) 





J 为 清楚 起 见 ， 此 处 
J 仅 示 出 4 个 垂直 连接 


图 8-9 真 3D 路 由 器 设计 


从 表 8-1 中 可 见 ， 一 个 5 x5 交叉 明显 比 3D NoC 总 线 混 合 结构 的 6 x6 交叉 和 
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3D 对 称 NoC 的 7 x7 交叉 小 并 需要 更 少 的 功率 。3D 交叉 中 的 多 种 连接 间 的 互 连 必 
须 需 要 每 屋 上 有 专用 的 连接 盒子 。 这 些 连 接点 能 使 用 垂直 和 水 平 通道 的 连接 ， 人 允许 
3D 交叉 中 灵活 的 数据 微 片 遍历 。 这 样 一 个 连接 盒子 (CB) 的 内 部 配置 如 
图 8-10 所 示 。 图 中 垂直 连接 段 也 影响 通 孔 版 图 布局 。 虽 然 该 图 远 比 图 8-8 所 示 的 
版 图 布局 复杂 ， 但 偏离 垂直 通 孔 间 的 区 域 也 能 被 其 他 电路 使 用 ， 见 图 8- 10 rb est 
椭圆 圈 出 的 部 分 。 因 此 ， 所 有 层 的 2D 交 又 物理 上 被 融入 一 个 单独 的 3D AEM He 
供 多 重 内 部 路 径 ， 一 个 数据 微 片 穿 过 多 个 开关 点 通过 并 连接 了 输入 和 输出 。 此 外 ， 
进入 另外 层 的 数据 微 片 不 需要 穿 过 中 间 缓 冲 需 ; 相反 ， 它 们 直接 连接 到 目标 层 的 输 
出 端口 。 例 如 ， 一 个 数据 微 片 可 以 通过 一 个 单 跳 从 第 2 层 的 西 侧 端 口 输入 ， 到 第 4 
层 的 北 侧 端 口 输出 。 


分 段 的 层 间 连接 


到 X+1 层 





到 X-1 层 





层 间 通 孔 版 图 
连接 盒子 (垂直 连接 分 段 ) 


图 8-10 真 3D 路 由 器 设计 中 3D 交叉 的 层 间 通 孔 结构 侧 视图 


然而 ， 尽管 这 是 个 让 人 振奋 的 结果 ， 而 反面 展现 出 一 幅 相 当 惨 淡 的 画面 。 在 
3D 交叉 中 增加 大 量 的 垂直 连接 来 增加 NoC 连接 度 会 导致 路 径 多 样 性 增加 。 这 转化 
为 来 源 和 目标 对 间 多 个 可 能 的 路 径 。 虽 然 这 些 增加 的 多 样 性 开始 看 起 来 是 好 的 特 
性 ， 但 它 实 际 上 将 导致 中 央 仲 裁 器 复杂 度 的 显著 增加 。 这 里 ， 中 央 仲 裁 器 即 用 来 协 
调 3D 交叉 的 层 间 通信 。 仲 裁 吉 现在 需要 在 多 个 可 能 的 互 连 中 做 出 决定 并 需要 附加 
的 大 量 控制 信号 来 使 能 所 有 这 些 互 连 。 即 使 仲裁 器 功能 上 可 以 分 割 为 多 个 小 的 仲裁 
fir, RHE A) fasta lB] A PRE ee a Ae ARIE ES, MAS, MRS 
静态 路 径 指定 而 牺牲 动态 性 能 ， 决 定 如 何 有 效 地 指定 哪些 路 径 到 每 个 源 一 目的 对 仍 
然 很 困难 。 此 外 ,全 3D 交叉 意味 着 每 层 25 ( 即 5 x5) 个 连接 盒子 。 一 个 4 层 的 
设计 将 需要 100CB! 假定 每 个 CB 由 6 个 晶体 管 组 成 ， 那 么 整个 交叉 结构 仅 传 输 门 
束 将 需要 600 个 控制 信号 。 这 样 的 控制 和 连 线 复杂 度 将 很 大 程度 上 注定 主 宁 NoC 
路 由 融 的 整个 操作 。 所 有 可 能 的 输入 输出 组 合 的 预 编 程 静态 控制 序列 将 导致 过 大 的 
表 / 索 引 ;， 搜索 这 样 一 个 表 将 引发 巨大 的 延 时 ， 并 同时 造成 面积 和 功 耗 的 增加 。 大 
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量 可 能 的 连接 反 过 来 阻碍 了 开关 流水 线 化 的 功能 。 注 意 到 NoC 路 由 器 设计 的 主要 
目的 是 最 小 化 操作 复杂 度 来 更 好 地 实现 非常 短 的 流水 线 长 度 和 极 高 的 频率 。 一 个 具 
有 压倒 性 的 控制 和 协调 复杂 度 的 全 交叉 与 朴素 高 效 的 设计 方法 学 形成 了 人 鲜明 的 对 
比 。 此 外 ， 全 互 连 提供 的 元 余 度 极 少 被 现实 中 的 工作 负载 使 用 到 ， 也 就 是 说 ， 实 际 
上 此 设计 大 材 小 用 了 ”。 


8.3.4 按 维度 分 解 NoC 路 由 设计 


给 定 NoC 设计 中 紧凑 的 延迟 和 面积 约束 ， 垂 直 〈 层 间 ) 仲裁 越 简单 越 好 。 于 
是 ， 一 种 真 3D 路 由 器 设计 ， 如 以 上 章节 所 述 ， 是 不 现实 的 选择 。 设 计 复杂 度 可 以 
通过 使 用 限制 数量 的 层 间 链接 得 到 缩减 。 本 节 将 介绍 一 种 模块 化 3D 可 拆 解 路 由 器 
( 称 为 列 一 行 一 垂直 路 由 器 ( RoCoVe) ) ^, 

在 典型 的 2D NoC 路 由 器 中 ,5 x5 交叉 有 5 个 输入 /输出 ， 对 应 着 平面 的 4 个 
方向 和 到 本 地 PE 的 连接 。 交 叉 是 路 由 器 延迟 和 面积 增加 的 主要 原因 。 本 章 参 考 文 
Wk [11] 中 示 出 ， 通 过 已 知 的 如 引导 数据 微 片 队列 的 基本 开关 处 理 的 使 用 ， 输 入 
流量 可 分 解 为 两 种 独立 的 流 : 东西 流量 ( 即 包 在 方向 的 移动 ); @ 南 北 流量 
( 即 包 在 了 方向 的 移动 ) 。 这 样 的 流量 隔离 策略 允许 使 用 更 小 的 交叉 并 且 此 策略 隔 
离 的 两 种 流 到 两 个 独立 的 路 由 器 子 模块 ， 被 称 为 行 模块 和 列 模块 。 

采用 与 流量 分 解 相同 的 思路 ，3D NoC 中 的 流量 可 以 分 解 为 3 个 独立 的 流 ， 即 
加 入 第 三 个 Z 方 向 的 流 ( 层 间 通 信 )。 在 三 维 中 处 理 所 有 的 流量 需要 一 个 附加 的 模 
块 ， 此 模块 称 为 垂直 模块 。 此 外 ， 必 须要 有 在 垂直 模块 和 行 / 列 模块 间 的 连接 来 保证 
包 从 垂直 模块 到 行 / 列 模 块 的 移动 。 于 是 ， 这 样 一 种 方向 分 解 的 方法 允许 使 用 较 小 的 
4 x2 交叉 ， 从 而 实现 了 更 快 和 更 高 效 的 3D NoC 路 由 器 设计 。3D 方向 分 解 NoC 路 由 
器 设计 的 结构 图 如 图 8-11 所 示 。 更 多 详细 的 内 容 参 见 本 章 参考 文献 【10] 。 


8.3.5 多 层 三 维 NoC 路 由 设计 


之 前 介绍 的 所 有 3D 路 由 天 的 设计 选择 〈 对 称 3D 路 由 器 、3D NoC 总 线 混合 路 
Hide. E 3D 路 由 融和 3D 方向 分 解 路 由 器 ) 均 基 于 处 理 单元 (PE) (为 处 理 器 核 
或 缓存 块 ) 本 喘 仍 是 2D 设计 的 基础 上 的 。 在 7.4 节 中 ， 介 绍 了 一 种 微 处 理 器 的 细 
粒度 设计 ， 可 以 将 PE 分 成 多 层 实现 。 例 如 ，3D 缓存 设计 和 3D 功能 单元 设计 。 第 
4 草 也 讨论 了 三 维 块 设计 和 布局 规划 算法 。 于 是 ， 一 个 NoC 结构 中 的 PE 可 以 采用 
这 种 细 粒 度 方 法 实现 。 虽 然 这 样 的 PE ZEE TEHBIRM TZ. PSE SR, [Ho 
3D 工艺 成 束 且 TSV 间距 更 小 时 将 成 为 可 能 (如 7.4 节 中 介绍 的 ) 。 

采用 这 样 的 NoC 架构 下 的 多 层 堆 春 PE, KIER 3D 芯片 所 有 层 的 多 层 3D 路 
由 天成 为 必须 。 即 使 每 个 PE 和 路 由 带 的 面积 更 小 ， 路 由 器 间 的 距离 更 短 , 但 从 由 
HEA, DEWR ZJZ PE 的 NoC 架构 和 多 层 路 由 器 与 具有 同样 多 节点 的 2D NoC 
情况 类 似 。 于 是 ,与 2D 路 由 需 相 比 ， 多 层 路 由 器 的 设计 不 需要 附加 功能 ， 仅 需要 
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VCI di 路 径 配 置 器 (PS) 








[| 垂直 模块 


| 列 模块 
| 到 北 


弹出 到 PE 
图 8-11 3D 合成 NoC Fit Si ETE VELA TAI 


使 得 功能 分 布 在 多 层 上 。 

基于 可 系统 地 将 模块 划分 为 跨 层 的 带 有 层 间 连 线 约束 更 小 的 子 模块 的 能 力 和 平 
衡 层 间 面 积 的 需要 ， 路 由 器 模块 可 分 为 两 类 : 可 分 割 的 和 不 合 分 割 的 ”。 输 出 组 
冲 硕 、 交 义 和 路 由 天 间 连 接 属于 可 分 割 的 模块 ， 而 仲裁 逻辑 和 路 由 逻辑 由 于 不 能 系 
统 地 分 割 为 子 集 ， 属 于 不 可 分 割 模块 。 贡 省 的 忆 片 面积 可 用 于 提升 路 由 需 容 量 ， 比 
如 ， 增 加 非 邻 接 PE 间 快 速 路 径 来 减少 平均 跳跃 数 ， 同 时 有 助 于 提升 性 能 并 降低 功 
耗 。 此 外 ， 因 为 大 部 分 的 通信 流量 由 短 数据 微 片 和 常见 向 量 组 成 ， 所 以 可 以 通过 动 
AS RAY E JEE H tit A JS OE BEL FE 


8.3.6 = NoC 拓扑 设计 


BY MAR Ay Ik, BHEB BUR Fit Hs ETT I EF UAE ht 2s Sel] NoC 拓扑 结构 。 
48.2 方 所 示 ， 当 今 有 多 种 拓扑 结构 ， 像 中 心 网 格 和 打 平 蝴蝶 拓扑 ， 它 们 分 别 有 自 
己 的 优 缺 点 。 通 过 采用 不 同 的 拓扑 结构 而 不 是 网 格 拓扑 ， 以 上 讨论 的 路 由 器 设计 会 
出 现 不 同 的 变化 。 例 如 , 在 2D 中 心 网 格 拓扑 中 ， 路 由 器 本 身 阶 数 为 8 (HIS 端口 
rH ae, 4 个 连接 本 地 PE， 其 他 地 连接 到 4 个 水 平方 向 )。 在 这 样 的 拓扑 结构 下 ， 
3D NoC 总 线 混合 方法 将 生成 9 端口 路 由 需 设 计 。 这 样 的 高 阶 路 由 器 虽然 减少 了 在 
PE 间 的 跳跃 数 ， 但 整个 设计 的 功 耗 大 、 性 能 低 。 于 是 ，3DNoC 需要 一 种 拓扑 一 路 
由 各 协同 设计 方法 以 使 任意 两 个 PE 间 的 跳跃 数 和 3D 路 由 器 设计 的 阶 数 尽 可 能 小 。 
Xu 等 在 本 曹参 考 文献 [33] 中 提出 了 一 种 带 有 小 尺寸 低 阶 路 由 器 设计 的 3D NoC 
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拓扑 结构 。 水 平 2D 网 格 被 连接 至 少 在 m 个 网 格 跳跃 之 外 的 节点 的 长 连接 网 络 所 蔡 
代 ， 其 中 m 是 设计 参数 。 在 这 样 的 拓扑 中 ， 长 距离 通信 可 以 利用 长 物理 线 网 和 季 
直 连 接 实 现 。 对 于 专用 NoC 架构 ，Yan 和 lin ”也 提出 了 称 为 向 上 跳 重 布线 和 路 由 
器 融合 (RRRM) 的 3D NoC 综合 算法 ,该 算法 基于 布线 流程 的 布线 重 排 规则 和 为 
减少 跳跃 数 而 设计 的 路 由 融合 步骤 。 


8.3.7 三 维 工艺 对 NoC 设计 的 影响 


第 2 章 讨论 了 3D 集成 的 工艺 选择 。 本 节 中 ,将 重点 讨论 多 种 3D 集成 方法 对 
NoC 设计 的 影响 。 

由 于 TSV 通 孔 竞争 有 源 器 件 面积 ， 故 必须 约束 单位 面积 内 这 样 通 孔 的 数目 。 
于 是 ，NoC 设计 必须 与 其 他 (如 电源 供电 网 络 和 时 钟 网 络 等 ) 竞争 同样 互 连 资源 
的 系统 组 件 设计 协同 进行 。 

使 用 TSV 的 3D 集成 可 分 为 以 下 两 类 : @ 单 片 方法 ; 加 堆 秋 方法 。 第 一 种 方法 
包含 一 系列 器 件 工 艺 ， 其 中 前 端 工艺 (构建 器 件 层 ) 反复 在 一 个 晶 圆 上 进行 以 在 
后 端 工艺 构建 器 件 间 的 互 连 之 前 构建 多 个 有 源 器 件 层 。 第 二 种 方法 (可 能 为 晶 
圆 一 晶 圆 、 晶 片 一 晶 圆 或 晶片 一 晶片 堆 蚕 ) 使 用 传统 制造 技术 分 别处 理 每 个 有 源 
器 件 层 。 这 些 多 重 器 件 层 随后 使 用 绑 定 技术 封装 以 构建 3D IC。 晶 片 可 以 面对面 
(F2F) 或 面 对 背 〈F2B) 绑 定 。 微 焊 点 包 在 面对面 晶 圆 绑 定 中 不 穿 过 厚 的 掩埋 硅 
层 并 可 以 采用 高 间距 密度 制造 。 对 与 堆 关 绑 定 ， 由 于 对 准 容 差 和 在 绑 定 过 程 中 减 薄 
的 晶片 / 晶 圆 高 度 限 制 了 TSV 的 按 比 例 缩小 ， 故 TSV 的 尺寸 不 能 与 特征 尺寸 同步 按 
比例 缩小 。 

TSV (或 微 压 焊 点 ) 的 大 小 、 长 度 和 间距 密度 和 绑 定 方法 〈 面 对 面 或 面 对 背 绑 
定 ， 基 于 SOL 的 3D 或 基于 体 CMOS 的 3D) 对 3D NoC 拓扑 设计 有 巨大 的 影响 。 例 
如 ，TSV 相对 较 大 的 尺寸 会 阻碍 在 多 个 器 件 层 间 以 较 细 的 粒度 分 块 的 设计 过 程 ， 并 
使 真 3D 路 由 器 设计 的 可 能 性 降低 。 另 一 方面 ， 单 层 3D 集成 中 ， 垂 直 3D 通 孔 由 于 
采用 本 地 线 网 互 连 而 有 可 能 与 特征 尺寸 同步 按 比例 缩小 ， 这 为 设计 提供 了 更 灵活 的 
垂直 3D 互 连 。 这 样 工 艺 的 存在 使 以 极 细 的 粒度 分 块 成 为 可 能 。 此 外 ， 相 比 面 对 背 
的 绑 定 或 基于 体 CMOS 的 集成 ， 面 对 面 绑 定 或 基于 SOI 的 3D 集成 可 能 具有 更 小 的 
通 孔 间距 尺寸 和 更 高 的 通 孔 密度 。 这 些 3D 工艺 参数 对 NoC 拓扑 的 影响 将 被 进一步 
研究 ， 并 且 关 于 性 能 、 功 耗 、 热 和 可 靠 性 优化 适用 于 不 同 3D 工艺 的 NoC 拓扑 将 被 
确定 。 


8.4 ”使 用 三 维 NoC 架构 的 多 处 理 器 芯片 设计 


在 以 上 和 曹 节 ， 讨 论 了 用 于 3D NoC 架构 的 多 种 路 由 器 设计 和 拓扑 探索 。 本 节 
中 ， 我 们 以 3D NoC 总 线 混合 架构 为 例 研 究 采 用 3D NoC 架构 的 带 存储 器 堆 释 的 沪 
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片 多 处 理 器 设计 ， 并 同时 评估 该 架构 设计 的 益处 “ 。 

多 核 在 单 芯 片上 的 集成 被 认为 会 加 重 本 已 糟糕 的 存储 器 带宽 问题 。 为 含 大 量 片 
上 核 的 芯片 提供 足够 的 数据 将 成 为 性 能 可 规划 度 的 主要 挑战 。 受 L/O 引 脚 所 限 ， 传 
统 的 片上 存储 器 将 不 足 。 根 据 ITRS 预测 ， 在 下 个 十 年 中 ， 封 装 上 引 脚 的 数目 将 不 
能 持续 增长 以 满足 克服 该 问题 的 需要 。 于 是 ， 预 计 在 多 核 之 上 堆 和 友人 存 储 需 将 成 为 
3D 工艺 的 早期 商业 应 用 。 

在 不 远 的 将 来 ， 在 采用 CMP 和 其 他 多 核 系 统 时 有 望 增加 二 级 和 三 级 缓存 的 下 
寸 。 然 而 ， 由 于 微小 的 特征 尺寸 会 恶化 互 连 延 迟 的 影响 ， 而 成 为 达到 设计 的 性 能 和 
功 耗 预 算 的 关键 瓶颈 。 因 此 ， 虽 然 传 统 架 构 在 存储 器 层次 的 每 层 都 具有 单个 、 一 致 
的 访问 时 间 ， 但 互 连 延 迟 的 增加 将 根据 所 要 求 的 缓存 线 的 物理 位 置 而 改变 大 缓存 的 
访问 时 间 。 也 就 是 说 ,访问 时 间 将 转换 为 基于 忌 片 上 穿越 距离 的 可 变 延 人 运 。 

基于 以 上 的 观察 ， 本 章 参 考 文献 [3] 中 提出 了 非 一 致 缓存 架构 (NUCA)。 与 
大 的 标准 单 片 二 级 缓存 不 同 ，NUCA 中 的 L2 空间 分 为 多 个 块 ， 并 根据 其 与 处 理 需 
的 相对 位 置 分 别 具 有 不 同 的 访问 延迟 。 这 些 块 通过 基于 网 格 的 互连网 络 连接 。 绥 存 
线 允 许 在 这 些 网 络 中 迁移 以 将 更 背 访 问 的 数据 放置 在 离 处 理 需 较 近 的 块 中 。 几 个 最 
近 提 出 的 方案 将 NUCA 的 理念 扩展 到 CMP 中 。 在 CMP 架构 中 NUCA 先天 的 问题 是 
被 多 个 核 共享 的 数据 管理 问题 。 已 经 提出 的 解决 该 问题 的 方案 包括 数据 复制 和 数据 
迁移 。 同 时 ， 长 的 访问 延迟 和 高 功 耗 也 仍然 是 基于 NUCA 的 CMP 的 固有 问题 。 

3D 电路 的 引入 提供 了 减 小 线 网 长 度 并 增加 存储 器 带宽 的 可 能 。 所 以 ， 该 技术 
可 以 有 效 减 少 NUCA 架构 中 远离 处 理 右 核 的 缓存 块 的 访问 延迟 。 

7.2 节 中 讨论 了 在 不 需要 使 用 NoC 架构 或 NUCA 架构 的 理念 情况 下 双核 处 理 需 
中 堆 秋 SRAM 和 DRAM 二 级 缓存 的 设计 。 本 节 中 ， 我们 考虑 NUCA 的 3D iit, H 
结合 了 NoC 和 3D 技术 的 优点 以 减 小 基于 CMP 的 系统 中 二 级 缓存 的 访问 延迟 。 本 
节 提 供 了 3D NoC 拓扑 设计 的 新 视角 ， 强 调 了 二 级 缓存 中 数据 管理 的 问题 ， 并 同时 
考虑 了 网 络 流量 和 热 的 问题 。 


8.4.1 三 维 二 级 缓存 在 CMP 2244 LHS 


在 第 1 草 中 提 到 了 ，3D 芯片 的 一 大 优点 是 层 间 较 小 的 距离 。 在 第 2 HP, 我 
们 看 到 两 层 间 的 距离 处 在 几 十 微米 的 量 级 ， 即 相对 于 2D 片上 网 络 架 构 中 两 个 NoC 
路 由 需 间 穿行 的 距离 是 可 忽略 的 〈 例 如 ，65nm 工艺 下 实现 的 64KB 混 存 块 中 平均 
为 1500pm)。 该 特性 使 三 下 GRH) 方向 的 通信 比 水 平 〈 层 内 ) 方向 快 得 多 。 本 
节 中 ， 我 们 将 介绍 在 CMP 处 理 天 上 堆 春 二 级 缓存 的 架构 ， 在 这 种 结构 中 ，3D 技术 
使 从 CMP AREE SR SIME SEIT ARIES DOR UI In], 7 WT BE s 

如 8.3 市 中 讨论 的 ， 直 接 的 3D NoC 路 由 器 设计 是 对 称 3D NoC 路 由 器 ， 其 增 
加 了 设计 复杂 度 (使 用 7 x7 5230), ， 并 导致 了 在 非 邻接 层 间 多 次 跳跃 通信 。NocC 
总 线 混合 设计 不 仅 减 小 了 设计 复杂 度 (使 用 6 x 6 交叉 ) ， 而 且 也 因为 层 间 较 短 的 
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距离 实现 了 在 层 间 的 单 跳 通 信 。 本 节 将 重点 介绍 NoC 总 线 混合 架构 ， 其 使 用 动态 
时 分 多 址 (dTDMA) 总 线 作 为 晶 圆 间 的 “通信 柱 ”， 见 图 8-7。 这 些 垂直 的 总 线 柱 
使 用 最 少 的 硬件 在 任意 两 层 间 提供 单 跳 通 信 并 转 接 到 传统 NoC 路 由 器 实现 层 内 传 
递 ， 这 将 在 下 文 详细 讨论 。 由 于 工艺 的 限制 和 路 由 咒 复 杂 度 问题 〈 随 后 讨论 ) ， 不 
是 所 有 的 NoC 路 由 器 均 可 包含 垂直 总 线 ， 但 含 垂直 总 线 的 就 形成 了 到 其 他 层 的 网 
关 。 因 此 ， 那 些 连接 到 垂直 总 线路 由 需 的 架构 稍 有 修改 。 


8.4.2 dTDMA 总 线 作 为 通信 支柱 


dTDMA 总 线 架 构 '“ 消除 了 通常 与 总 线 相伴 的 进程 特征 ， 相 反 ， 采 用 了 动态 增 
大 或 缩小 时 间 沟 覃 数目 的 仲裁 器 以 匹配 活动 客户 数目 。 单 跳 通信 和 进程 较 少 的 仲裁 
允许 低 的 可 预测 的 延迟 。 动 态 分 配 一 直 产 生 最 高 效 的 时 间 沟 槽 配置 ， 使 dTDMA 总 
线 带 宽 效 率 达 到 将 近 100% 。 每 个 柱 市 点 需要 紧凑 的 收发 天 模块 来 转 接 总 线 ， 如 
图 8-12 所 示 。 


dTDMA 总 线 
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图 8-12 dTDMA 总 线 的 收发 模块 


dTDMA 总 线 接 口 (ILAI 8-12) 包括 通过 三 态 驱 动 器 连接 到 总 线 的 发 送 器 和 接 
收 器 。 在 每 个 接收 需 和 发 送 器 上 的 三 态 驱 动 器 由 独立 编程 全 抽 头 反馈 移 位 寄存 器 控 
制 。 因 为 其 较 小 的 尺寸 ，dTDMA 总 线 接口 是 NoC 路 由 器 最 小 的 附加 部 分 。 

中 心 化 仲裁 器 的 出 现 是 芯片 中 垂直 总 线 或 柱 需要 保持 较 低 数目 的 另 一 个 原因 。 
每 个 市 有 连接 所 有 层 的 控制 信号 均 需 要 一 个 仲裁 器 。 仲 裁 器 应 置 于 芯片 的 中 间 层 来 
保持 连 线 距离 尽 可 能 的 一 致 。 自 然 地 ， 控 制 线 的 数目 随 挂 在 柱 上 的 柱 节点 数 ( 即 
心 片 中 的 层 数 ) 的 增加 而 增加 。dTDMA 总 线 架 构 仲 裁 器 和 所 有 其 他 的 单元 均 用 
Verilog HDL 实现 ， 并 用 商用 90nm TSMC 库 综 合 。 仲 裁 器 和 收发 器 占用 的 面积 远 小 
于 NoC 路 由 器 ， 因此 彻底 证 明 了 使 用 该 方法 作为 层 间 垂直 网 关 的 正确 性 。 这 些 dT- 
DMA 组 件 和 基本 5 端口 ( 东 、 西 、 南 、 北 、 本 地 ) NoC 路 由 器 的 面积 和 功 耗 ( 均 
在 90nm 工艺 下 综合 ) 见 表 8-2。 显 然 ， 添加 dTDMA 组 件 的 面积 和 功 耗 的 代价 成 量 
级 的 小 于 整体 预算 。 因 此 ， 使 用 dTDMA 总 线 作为 垂直 互 连 有 最 小 的 面积 和 功 耗 影 
Me], dTDMA 总 线 被 视 为 在 层 数 小 于 9 时 垂直 方向 优 于 对 称 3D 路 由 器 设计 的 方案 。 
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如 在 第 2 章 中 讨论 的 ，TSV 的 寄生 参数 由 于 其 较 小 的 尺寸 对 功 耗 和 延迟 的 影响 
较 小 。 层 间 通 孔 的 密度 决定 了 可 采用 的 柱 的 数目 。 表 8-3 示 出 了 由 170 个 线 网 
(128 位 总 线 +4 JE 3D SoC 所 需 的 3 x14 控制 线 网 ) 构成 的 柱 在 不 同 的 通 筷 间距 太 
寸 下 所 占用 的 面积 。 在 面 对 背 的 3D 实现 中 ， 柱 必须 通过 有 源 器 件 层 ， 这 意味 着 柱 
占用 的 面积 即 为 浪费 的 器 件 面积 。 这 就 是 层 间 互 连 数目 必须 最 小 化 的 原因 。 人 然而 ， 
随 着 通 孔 密度 的 增加 ， 柱 占用 的 面积 越 来 越 小 ， 并 与 NoC 路 由 硕 所 占用 的 面积 相 
比 逐 渐 可 忽略 ( 见 表 8-2 和 表 8-3) 。 然 而 ， 如 第 2 章 中 提 到 的 ， 通 孔 密 度 仍 将 受 
到 通 孔 压 焊 点 尺寸 的 限制 ， 不 能 随 实际 通 孔 尺寸 同步 按 比 例 缩小 。 如 表 8-3 Bron, 
即使 间距 为 5pym， 对 于 基本 5 端口 NoC 路 由 需 ， 柱 引入 的 面积 成 本 约 为 49% ， 并 不 显 
著 。 这 些 结 果 说 明 ， 出 于 我 们 3D 架构 的 目的 增加 额外 的 dTDMA 总 线 柱 是 可 行 的 。 

48-2 dTDMA 总 线 的 面积 和 功 耗 代 价 
基本 NoC 路 由 器 (5 端口 ) 119. SSmW 0. 3748 
”qTDMA 总 线 Rx/Tx (每 用 户 2 个 ) /— 91394W- 0. 00036207 


dTDMA 总 线 仲 裁 器 (每 总 线 1 个 ) 204. 98 uW 0. 00065480 


R 8-3 不 同 通 孔 间距 尺寸 下 晶 圆 间 连 线 的 面积 代价 
晶 圆 间 面 积 (根据 dTDMA 总 线 连 线 ) 


总 线 宽 度 
128bits ( +42control) 62500 um?’ 15625 um? 625 um? 25 um? 


然而 ， 通 扎 密 度 不 是 限制 柱 数目 的 唯一 参数 。 路 由 顺 的 复杂 度 也 扮演 了 关键 角 
色 。 如 上 所 述 ， 在 NoC 路 由 需 中 添加 额外 的 垂直 链接 (dTDMA 总 线 ) 将 使 端口 数 
从 5 增加 到 6， 并 且 由 于 在 每 个 路 由 需 中 的 竞争 概率 直接 与 竞争 的 端口 数 成 正比 ， 
端口 的 增加 将 增加 葛 争 概率 。 这 反 过 来 将 增加 路 由 器 中 的 拥塞 ， 原 因 是 将 有 更 多 的 
数据 微 片 到 路 由 需 交 叉 的 访问 需要 仲裁 。 因 此 ， 任 意 地 在 NoC 路 由 器 中 添加 垂直 
柱 反 过 来 影响 了 每 个 柱 路 由 顺 的 性 能 。 于 是 ， 网 络 中 高 竞争 路 由 器 数目 〈 柱 路 由 
d) 增加 ， 其 附近 层 内 和 层 间 通信 的 延迟 跟着 增加 。 

万 一 方面 ， 存 在 最 小 可 接受 的 柱 数 目 。 我 们 在 该 研究 中 将 每 个 CPU 置 于 其 自 
己 的 柱 之 上 。 如 有 果 多 个 CPU 可 以 分 享 同 一 个 柱 ， 就 会 存在 更 少 的 柱 ， 但 这 样 的 组 
织 将 引发 如 竞争 等 其 他 问题 。 


8.4.3 三 维 (3D) NoC 总 线 混合 路 由 架构 

8.2 市 提 供 了 3D NoC 总 线 混 合 路 由 器 设计 的 简要 介绍 ， 本 节 将 给 出 详细 的 
PH, 

一 个 基本 的 NoC 路 由 器 由 4 个 主要 部 分 组 成 : 路 由 单元 (RT), 、 虚 拟 通 道 分 配 
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单元 (VA) 、 开 关 分 配 单元 (SA) 以 及 交叉 〈XBAR ) 。 在 网 格 拓扑 中 ， 每 个 路 由 
器 有 5 个 物理 通道 (PC): 东 、 西 、 南 、 北 和 连接 本 地 处 理 单 元 (CPU 或 缓存 块 ) 
通道 。 每 个 物理 单元 具有 一 个 虚拟 通道 (VC) 数 。 这 些 是 保存 发 来 不 同 消息 数据 
微 片 的 先进 先 出 (FIFO) 缓冲 器 。 在 实现 中 ， 我 们 采用 了 每 个 PC 含 3 个 VC， 每 
个 VC 含 1 消息 ， 每 个 消息 为 4 个 微 片 长 。 每 个 消息 选 定 为 4 数据 微 片 长 。 路 由 天 
链接 的 宽度 选 定 为 128 位 。 结 果 ， 一 个 64B 缓存 线 可 放 和 人 一 个 包 (BI 4 数据 微 片 / 
包 x128 位 /数据 微 片 =512bit/ 包 =64B/ 包 )。 

最 基本 的 路 由 器 实现 是 4 级 的 ， 即 在 路 由 器 中 的 每 个 单元 需要 1 个 时 钟 周 期 。 
在 我 们 的 二 级 架构 中 ， 低 网 络 延 迟 是 最 重要 的 ， 也 就 是 更 快 的 路 由 器 是 必需 的 。 本 
章 参 考 文献 [22] 提出 了 更 低 延 迟 的 路 由 需 架 构 ， 此 架构 采用 称 为 预测 分 配 的 技 
Af RT, VA 和 SA 并 行 。 该 方法 在 VA 阶段 预测 胜出 者 并 基于 此 执行 SA。 此 外 ， 
称 为 预 查 找 路 由 的 技术 也 用 于 执行 提前 一 步 的 路 由 (在 节点 i 执行 节点 i+1 的 路 
由 ) 。 这 两 种 修改 可 以 有 效 地 改善 路 由 器 的 性 能 。 通 过 并 行 多 阶段 的 操作 ， 两 阶段 
其 至 单 阶段 ”的 路 由 器 成 为 可 能 。 在 我 们 提出 的 架构 中 使 用 了 单 阶段 路 由 器 以 最 
小 化 延迟 。 

由 于 在 dTDMA 柱 和 NoC 路 由 器 间 必 须 有 接口 以 实现 在 层 中 2D 网络 垂直 连接 
的 无 颖 集成 ， 连 接 到 柱 节点 的 路 由 器 是 不 同 的 。 修 改 的 路 由 器 见 图 8-7。 一 个 额外 
的 物理 通道 PC 加 入 路 由 器 ， 其 用 于 垂直 连接 。 额 外 的 PC 有 其 自己 的 专用 缓冲 器 
并 与 其 他 到 路 由 器 操作 的 连接 没有 差别 。 路 由 器 仅 看 到 一 个 附加 的 物理 通道 。 


8.4.4 处 理 器 和 二 级 缓存 组 织 


图 8-13 示 出 了 在 我 们 设计 中 的 处 理 副 和 二 级 缓存 的 组 织 结 构 。 与 CMP- DNU- 
CA 类似, 我们 将 缓存 块 分 为 多 个 徐 。 每 个 簇 包 含 一 套 缓存 块 和 对 应 簇 中 每 个 组 
存 线 的 独立 的 标签 矩阵 。 有 些 簇 中 心 放 置 了 处 理 器 ， 有 些 则 没有 。 簇 中 所 有 的 块 通 
过 NoC 连接 来 实现 数据 通信 ， 而 标签 矩阵 直接 连接 到 簇 中 的 本 地 处 理 器 。 注 意 到 
每 个 处 理 副 有 其 自己 专用 的 一 级 缓存 和 一 个 在 其 本 地 簇 中 的 带 标 签 和 矩阵 的 二 级 缓存 
块 。 对 于 不 含 处 理 右 的 族 ， 标 签 和 矩阵 连接 到 用 于 接收 缓存 线 要 求 ， 查 找 标签 矩阵 和 
将 要 求 传递 到 目标 缓存 块 的 定制 逻辑 块 。 该 处 理 器 和 缓存 的 组 织 结构 可 通过 改变 尺 
寸 和 /或 族 数 ， 按 比例 缩小 。 


8.4.5 ”缓存 管理 策略 


基于 上 一 东 给 出 的 处 理 器 和 缓存 的 组 织 结构 ， 我 们 开发 了 缓存 管理 策略 ， 包 括 
缓存 线 查 找 策 略 、 绥 存放 置 和 替换 策略 ， 以 及 缓存 线 迁移 策略 ， 所 有 将 在 以 下 章节 
中 详细 介绍 。 

8.4.5.1 查找 策略 

缓存 线 查找 策略 是 两 步 过 程 。 在 第 一 步 中 ， 处 理 器 查找 其 所 属 簇 中 的 本 地 标签 
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图 8-13 在 3D 二 级 架构 中 层 内 和 层 间 的 数据 迁移 。 点 连 线 代表 入 


矩阵 并 发 出 查找 其 相 邻 篮 中 标签 矩阵 的 要 求 。 所 有 垂直 相 邻 的 徐 ， 通 过 柱 广 播 的 标 
签 接收 。 如 果 缓 存 线 在 这 些 位 置 均 找 不 到 ， 那 么 处 理 器 将 要 求 广 播 到 剩余 的 徐 。 如 
果 标 签 在 所 有 簇 中 均 不 匹配 ,那么 视 为 二 级 缓存 丢失 。 在 任 一 得 中 匹配 的 标签 之 
上 ， 对 应 的 数据 通过 NoC 路 由 至 发 出 请 求 的 处 理 器 。 

8.4.5.2 ”放置 和 替换 策略 

我 们 使 用 与 CMP- DNUCA 相似 的 放置 和 替换 策略 。 初 始 阶段 ， 缓 存 线 根据 其 
缓存 标签 低位 放置 ; 即 这 些 位 决定 缓存 线 初 始 将 被 放置 的 簇 。 缓 存 索引 的 低位 指向 
复 中 绥 存 线 将 被 放置 的 块 。 绥 存 索引 剩余 的 位 决定 了 其 在 缓存 块 中 的 位 置 。 徐 的 标 
签 标志 也 在 缓冲 线 放 置 时 刷新 。 放 置 策略 仅 用 于 决定 缓存 线 的 初始 位 置 ， 因 为 当 组 
存 线 开 始 迁移 时 ， 组 存 标签 的 低位 不 再 指向 得 位 置 。 最 终 ， 我 们 使 用 伪 LRU 替换 
策略 来 驱除 缓存 线 以 实现 缓存 丢失 。 
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8.4.5.3 缓存 线 转移 策略 

与 之 前 的 方法 类 似 ， 我们 的 策略 试图 将 数据 迁移 得 离 访问 处 理 带 更 近 。 因 此 ， 
我 们 的 策略 裁剪 到 3D 架构 并 且 基 于 访问 的 数据 处 于 访问 处 理 器 的 同 层 或 不 同 层 来 
区 别 地 处 理 迁 移 。 对 于 数据 处 于 相同 层 的 情况 ， 数 据 被 逐渐 迁移 到 距 访问 处 理 融 更 
近 的 得 。 当 将 缓冲 线 移 动 到 更 近 复 时 ， 跳 过 了 含 处 理 器 ( 非 访问 处 理 器 ) BUE, 
因为 我 们 不 想 影响 它们 本 地 的 二 级 访问 样式 ， 并 将 缓冲 线 移动 到 下 一 个 不 含 处 理 需 
的 最 近 的 簇 。 最 后 ， 如 果 数 据 被 唯一 一 个 处 理 器 反复 访问 ， 它 将 移动 到 该 处 理 器 的 
本 地 簇 中 。 图 8-13a 示 出 了 该 层 内 的 数据 迁移 。 

对 于 数据 处 于 不 同 层 的 情况 ， 数 据 被 逐渐 移动 到 更 接近 距离 访问 处 理 器 最 近 的 
柱 的 位 置 ( 见 图 8-13b)。 因 为 可 通过 垂直 通信 和 柱 访 问 的 艇 被 认为 处 于 本 地 近 处 ， 
不 会 跨 层 移 动 数 据 ， 这 样 有 利于 减 小 缓存 线 移动 频率 ， 反 过 来 也 节省 了 功 耗 。 

为 了 避免 错误 丢失 ( 因 在 迁移 过 程 中 查找 数据 造成 的 丢失 )， 我 们 采用 了 
CMP- DNUCA ' 中 使 用 的 懒惰 迁移 机 制 。 


8.4.6 方法 学 


我 们 使 用 连接 了 3D NoC 模拟 器 的 Simics BiU T 3D CMP 架构 。 一 个 8 处 理 
器 CMP 架构 的 全 系统 模拟 在 Solaris 9 上 执行 。 每 个 处 理 器 使 用 顺序 流 并 执行 
SPARC ISA 指令 集 。 处 理 器 含 专用 一 级 缓存 并 共享 一 个 大 的 二 级 缓存 。 默 认 配置 的 
处 理 器 、 存 储 器 和 网 络 存储 器 参数 见 表 8-4。 该 表 中 的 一 些 参数 为 研究 不 同 的 配置 进 
行 了 修改 。 示 出 的 缓存 块 和 标签 矩阵 延迟 提取 使 用 了 知名 的 缓存 模拟 器 Cacti'”) 。 
表 8-4 ”上 默认 系统 配置 参数 (二 级 缓存 按 16 f 16 x64KB 组 织 ) 


Mh FE dS BS BX 
处 理 器 数目 8 
发 射 宽度 1 
存储 器 参数 
-级 (VD 分 开 ) 64KB, 2 路 ，64 位 线 ，3 周期 写 出 
一 级 (统一 ) 16MB (256 x64KB) 16 路 ，64 位 线 ，5 周期 块 访问 
RE 标签 阵列 ( BEAR ) 24KB, 4 周期 访问 
FF Ai ds 4GB, 260 周期 延迟 
网 络 参 数 
层 数目 2 
柱 数目 8 
布线 方案 尺寸 顺序 
开关 方案 虫 洞 
飞 掠 区 大 小 128 位 


Ft FH AF HE WS 1 周期 
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为 建 模 3D、 混 合 NoC/ 总 线 互 连 的 延迟 ， 我 们 在 现 有 2D NoC 模拟 器 ”的 基础 
上 开发 了 基于 C 的 精确 周期 模拟 器 。 为 了 该 研究 ，2D 模拟 器 扩展 到 了 三 维 ， 同 时 
dTDMA 总 线 集成 作为 垂直 通信 通道 。 3D NoC 模拟 器 作为 输出 ， 生 成 了 缓存 访问 
延迟 。 

在 我 们 的 缓存 模型 中 ， 不 同 处 理 器 的 专用 一 级 缓存 通过 实现 分 布 式 的 基于 目录 
协议 保持 一 致 。 每 个 处 理 器 有 跟踪 其 一 级 缓存 线 状态 的 目录 。 基 于 MESI 协议 , 一 
级 访问 事件 (如 读 丢 失 ) 引发 状态 转换 并 更 新 到 目录 。 由 一 级 缓存 一 致 引起 的 流 
量 在 我 们 模拟 的 考虑 之 中 。 

使 用 模拟 平台 ， 我 们 模拟 了 9 个 SPEC OMP 基准 电路 ”。 对 于 每 个 基准 电 
路 ， 我 们 在 源 代 码 中 标记 了 初始 相位 。 在 初始 化 完成 后 缓存 模型 才 开 始 模拟 。 之 
后 ， 每 个 应 用 执行 5 亿 周 期 来 预 热 二 级 缓存 。 随 后 我 们 收集 接 下 来 20 亿 周 期 的 
统计 数据 。 


8.4.7 结果 


我 们 首先 介绍 了 在 实验 中 比较 的 方法 。 参 考 了 CMP- DNUCA “中 的 完美 查询 方 
法 。 我 们 将 2D 和 3D 方法 分 别 命 名 为 CMP- DNUCA-2D 和 CMP- DNUCA-3D。 注 意 
2D 方法 仅 是 本 章 中 讨论 的 3D 方法 的 特例 ， 即 仅 含 一 层 。 这 两 种 方法 都 采用 了 组 
存 线 迁移 。 为 屏蔽 3D 工艺 的 有 益 影 响 ， 我 们 还 实现 了 不 含 缓存 线 迁 移 的 3D 方法 ， 
称 为 CMP- SNUCA-3D, 

第 一 套 结果 给 出 了 在 不 同方 法 下 平均 二 级 选中 延迟 数 。 结 果 如 图 8- 14 所 示 。 
结果 表明 (CMP-DNUCA-2D) 生成 了 与 之 前 2D 方法 (CMP-DNUCAP!) 相近 的 结 
果 。 因 为 处 理 器 没有 像 CMP- DNUCA 那样 放置 在 芯片 的 边缘 ， 而 是 如 图 8-13 所 示 
的 用 缓存 包围 着 它们 ， 所 以 2D 方法 在 几 个 基准 电路 上 显示 出 略 好 的 IPC 结果 。 
3D 方法 的 结果 显示 出 了 预期 的 本 地 性 的 增加 所 带 来 的 优势 。 有 趣 的 是 CMP- SNUCA- 3D 
没有 采用 迁移 ， 却 仍 胜 过 采用 迁移 的 2D 方法 。 平 均 来 看 ， 当 从 CMP- DNUCA-2D 
变 到 CMP-DNUCA-3D 时 ， 二 级 缓存 延迟 缩减 了 10 个 周期 。 在 3D 工艺 中 使 用 数据 
迁移 得 到 更 好 的 性 能 也 是 可 能 的 。 特 别 地 ，CMP- DNUCA-3D 比 静 态 3D 平均 减少 
了 7 个 周期 的 延 退 。 此 外 ， 我 们 注意 到 即使 当 采 用 迁移 时 ( 见 图 8-15)， 由 于 增加 
的 本 地 性 ，3D 使 用 迁移 的 次 数 少 于 2D。 缩 减 的 迁移 数 反 过 来 减 小 了 网 络 流 量 和 功 
耗 。 为 了 与 二 级 访问 的 次 数 相 称 ， 这 些 二 级 延迟 节省 翻译 到 IPC 改善 上 。 
图 8-16 示 出 了 CMP- DNUCA-3D (CMP-SNUCA-3D) 优 于 2D 方法 ， 其 中 IPC 改善 
达到 37.1% (18.096) 。IPC 改善 高 于 mgrid, swim 和 wupwise， 由 于 这 些 应 用 展现 
了 较 高 的 二 级 访问 数 。 

我 们 接着 研究 了 较 大 缓存 尺寸 对 使 用 CMP- DNUCA-2D 和 CMP- DNUCA- 3D 所 
带 来 节省 的 影响 。 当 增加 二 级 缓存 尺寸 时 ， 为 了 保持 16 路 协同 性 ， 增 加 了 每 个 得 
的 尺寸 。 图 8-17 示 出 了 32MB 和 64MB 二 级 缓存 在 4 个 有 代表 性 的 基准 电路 上 的 平 
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图 8-16 不 同方 案 下 IPC (4 
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图 8-17 不 同方 案 下 平均 二 级 选中 延迟 值 


均 二 级 延迟 结果 (art 和 galgel 一 级 未 命中 率 低 ，mgrid 和 swim 一 级 未 命中 率 高 ) 。 
我 们 观察 到 二 级 延迟 随 大 缓存 尺寸 增加 ， 即 使 在 3D 配置 下 的 较 慢 速率 (2D 平均 
7 周期 ，3D 平均 5 周期 ) ， 也 显示 3D 拓扑 是 采用 更 大 二 级 尺寸 时 更 可 按 比例 规划 
选择 。 

之 后 我 们 通过 在 已 知 3D 拓扑 下 修改 一 些 参数 展开 实验 。 用 CMP- DNUCA- 3D 
方法 ， 使 用 不 同 柱 数 以 捕捉 不 同 层 间 通 孔 间距 对 其 影响 的 结果 如 图 8-18 所 示 。 随 
着 柱 数 的 减少 ， 共 享 资 源 (RE) 的 竞争 会 增加 ， 以 保证 层 间 通信 。 结 果 是 ， 当 从 
8 柱 改 到 2 柱 时 ,平均 二 级 延迟 从 1 周期 增加 到 7 周期 。 当 层 数 从 2 增加 到 4 时 ， 
二 级 延迟 减 小 了 3 ~ 8 个 周期 ， 主 要 由 于 访问 数据 的 距离 缩短 ， 对 其 的 说 明 如 
图 8-19 中 的 CMP- DNUCA-3D 方法 。 
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8-18 柱 数目 的 影响 (CMP-DNUCA-3D 方案 ) 
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图 8-19 层 数 的 影 啊 ( CMP-SNUCA-3D 方案 ) 


8.5 结论 


三 维 电路 和 NoC 是 互 连 复杂 度 增长 下 的 两 个 前 沿 趋势 。 在 本 章 中 ， 我 们 介绍 
了 设计 3D NoC 架构 的 多 种 方法 并 展示 将 NoC 和 3D 架构 结合 是 设计 未 来 多 处 理 器 
心 片 的 一 大 可 靠 选 择 。 
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第 9 音 PicoServer: 使 用 三 维 (3D) 
堆 释 技术 建 并 能 源 效 率 服 务 谷 
Taeho Kgil, David Roberts, Trevor Mudge 

由 于 电力 和 冷却 技术 的 增长 有 助 于 降低 数据 中 心 的 成 本 ， 能 源 效 率 成 为 驱动 服 
务 器 设计 的 关键 。 提 高 能 源 利 用 效率 的 方法 之 一 是 采用 创新 互 连 技术 ， 如 3D HE 
和 琶 。 三 维 堆 和 至 技术 给 未 来 获得 低 功 耗 、 高 集成 和 可 移动 性 的 服务 硕 提 供 了 新 的 机 
遇 。 本 章 介绍 了 一 种 叫 作 PicoServer 的 架构 ， 它 采用 3D 技术 把 一 个 含有 一 些 简 单 
低速 的 处 理 器 内 核 必 片 与 满足 主 存储 融 要 求 的 多 存储 天 吸纳 片 键 合 在 一 起 。 这 些 多 
处 理 器 心 片 由 DRAM 组 成 。3D 堆 琵 的 使 用 有 助 于 增加 处 理 右 和 存储 带 之 间 的 低 延 
时 的 路 径 。 这 样 便 无 须 二 级 缓存 ， 并 使 得 其 面积 被 重新 分 配 到 其 他 简单 内 核 上 。 这 
些 必 片 可 以 在 不 损耗 吞吐 量 的 情况 下 降低 时 钟 频率 。 较 低 的 时 钟 频 率 意味 着 更 容易 
满足 3D 堆叠 的 热 约 束 。PicoServer 相当 简单 ， 仅 仅 需要 通过 最 简单 的 3D 技术 将 忆 
片 在 彼此 项 部 堆 倒 。 由 于 引入 的 新 技术 (3D) 所 实现 的 一 系列 低 成 本 、 低 功 耗 和 

高 集成 服务 颖 架构 会 产生 一 定 的 风险 ,我 们 的 目的 是 将 其 降 到 最 低 。 


9.1 介绍 


数据 中 心 是 当今 计算 平台 不 可 或 缺 的 一 部 分 。 互 联网 和 摩尔 定律 的 持续 发 展 已 
经 使 互联 网 服务 提供 商 ( 如 雅虎 ) 建立 起 具有 数 百 万 台 服 务 器 的 大 型 数据 中 心 。 
对 于 大 规模 的 数据 中 心 ， 提 高 能 源 效率 便 成 了 其 关键 任务 。 基 于 现成 的 通用 处 理 咒 
的 数据 中 心 会 消耗 大 量 不 必要 的 电能 ， 且 需要 昂贵 的 冷却 系统 ， 并 占据 了 很 大 的 空 
间 。 实 际 上 ， 功 率 和 冷却 这 些 数据 中 心 的 成 本 很 可 能 会 成 为 运行 成 本 的 一 个 重要 部 
分 。 我 们 这 种 说 法 可 以 在 图 9- 1 中 得 到 证 实 ， 这 超出 数据 中 心 每 年 的 经 营 成 本 。 
图 9-1 清楚 地 显示 出 ， 功 耗 与 冷却 系统 成 本 的 逐年 增长 使 得 整体 数据 中 心 的 运行 成 
本 也 随 之 增长 。 

能 源 效率 服务 髓 的 设计 方法 之 一 是 引进 创新 的 互 连 技术 。 三 维 堆 释 技术 是 一 种 
互 连 技术 ， 能 显 若 提升 新 的 单 芯 片 多 处 理 器 架构 的 能 源 效 率 。 我 们 提出 的 架构 
PicoSever? ， 采 用 了 3D 技术 把 一 个 含有 一 些 简单 低速 处 理 内 核 的 芯片 与 许多 存储 
fin Fr BE a FE, PEA. Fab, 用 3D 堆 苹 实现 存储 处 理 器 的 互 连 ， 可 


O 本章 是 基于 文献 [32] 和 文献 [29] 的 工作 。 
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图 9-1 每 年 的 IDC 预计 的 功 耗 、 冷 却 服 务 和 购买 其 他 服务 的 费用 


拥有 非常 高 的 带宽 和 相当 低 的 延迟 。 因 此 省 去 了 复杂 的 缓存 结构 。 可 以 看 出 一 般 芯 
片上 ,将 二 级 缓存 的 花费 用 于 附加 处 理 器 内 核 的 花费 会 更 好 。 额 外 的 内 核 意味 着 在 
吞吐 量 不 变 的 情况 下 ， 运 行 得 很 慢 。 速 度 较 慢 的 内 核能 让 我 们 减少 功率 消耗 和 其 带 
来 的 温度 约束 ， 而 这 些 对 于 3D 电路 来 说 正 是 潜在 的 阻碍 。 所 形成 的 系统 非常 适合 
于 在 吞吐 量 方面 的 应 用 ， 例 如 服务 器 。 我 们 提出 的 架构 相当 简单 ， 芯 片 仅 需要 最 简 
单 的 3D 技术 堆 秋 在 彼此 顶部 。 我 们 的 目的 是 将 已 实现 的 一 系列 低 成 本 、 低 功 耗 和 
高 集成 服务 器 架构 的 风险 降 到 最 低 。 使 用 PicoSever 能 显著 地 满足 低 功 耗 和 小 空间 
的 需求 。 

服务 器 应 用 程序 在 处 理 按 基于 每 个 客户 端的 事件 时 相互 独立 ， 并 能 展示 高 度 线 
程 级 的 并 行 性 。 这 种 高 度 并 行 ， 并 不 适合 传统 的 单 片 式 处 理 器 。CMP 可 由 许多 简 
单 内 核 建立 ， 当 保持 相似 水 平 的 吞吐 量 时 ， 可 在 一 个 较 低 的 频率 上 使 用 线程 级 并 
行 ， 因 此 耗 散 功率 较 小 。 通 过 将 用 3D 堆 释 键 合 ， 我 们 能 展示 出 其 具有 进一步 降低 
ee RAI AT AE, SHEMET SCL Be REE 

1) 在 DRAM 和 一 级 缓存 之 间 其 支持 多 个 内 核 的 高 带宽 总 线 ， 即 具有 数 以 千 计 
的 低 延 迟 连接 线 ， 且 芯片 间 实现 最 小 面积 是 有 可 能 的 。 因 为 互 连 总 线 是 在 片上 的 ， 
所 以 相对 于 在 芯片 间 实 现 来 说 ， 能 够 以 相对 低 的 功 耗 预算 ， 使 用 更 宽 的 总 线 。 

2) 由 于 大 容量 片上 的 DRAM 集成 ， 需 要 在 存储 器 层次 结构 上 修改 。 移 除 二 级 
缓存 并 由 更 多 的 处 理 器 内 核 代替 是 可 能 的 。 因 为 地 址 复 用 和 片 外 IO 驱动 焊 盘 上 9] 
不 再 需要 ， 相 应 的 片上 的 DRAMS 存 取 延 迟 也 减少 了 。 此 外 ， 它 也 带 来 一 种 具有 快 
速 的 片上 DRAM 来 建立 非 均 匀 存 储 结构 和 相对 较 慢 的 片 外 二 级 系统 存储 器 的 机 会 。 


”我们 参照 堆 全 在 主 服 务 忌 片上 的 芯片 作为 片上 ， 这 是 因为 它们 能 形成 3D 芯片 。 
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3) 系统 功 耗 整 体 减 小 主要 由 于 内 核 时 钟 频率 的 减 小 。 在 1) 和 2) 的 陈述 中 
3D 堆 蚕 的 好 处 是 让 多 核心 的 主 频 集成 在 一 个 适度 的 片上 频率 ， 即 工作 在 500 ~ 
1000MHz 之 间 ， 并 同时 提供 高 的 吞吐 量 。 减 小 内 核 时 钟 频率 可 以 简化 它们 的 结构 ， 
例如 通过 使 用 较 短 的 流水 线 来 降低 向 前 逻辑 。 

3D 堆 笃 的 潜在 劣势 是 受热 限制 ( 见 第 3 章 ) 。 然 而 ， 对 于 我 们 在 9. 4. 5 市 提出 
的 简单 、 低 功 耗 内 核 类 型 的 PicoServer 来 说 ， 这 并 不 是 一 种 限制 。 事 实 上 ， 根 据 
表 9-2 中 ITRS 预测 ， 可 预测 出 系统 仅 消 耗 几 瓦特 ， 甚 至 不 需要 散热 僚 。 

PicoSever 的 总 体 架 构 如 图 9-2 所 示 。 为 了 本 次 的 工作 目标 ， 我 们 假设 一 个 5 ~ 
9 层 世 片 的 堆 赫 。 它 们 的 连接 是 通过 垂直 于 芯片 上 的 通 孔 实现 的 。3D 互 连 通 孔 的 
尺寸 在 1~3hm 之 间 ， 具 有 1 ~6hm 之 间 的 间距 。 当 今 的 商业 能 文 持 每 平方 厘米 
1000000 个 通 孔 '“ 。 这 远 远 超过 了 PicoSever 需要 的 个 数 。 这 些 通 孔 可 作 互 连 和 热 
通道 。 在 研究 中 ， 我 们 假设 基于 组 件 逻 辑 的 微 处 理 需 内 核 ， 网 络 接口 控制 器 
(NIC) 和 外 国 设 备 都 是 处 于 底层 而 以 面向 常规 容量 的 DRAM 占据 其 他 层 。 为 了 理 
解 设计 空间 和 这 项 新 技术 的 潜在 的 优势 ， 我 们 通过 仿真 探索 了 不 同 的 总 线 宽度 、 内 
核 数 量 、 频 率 和 存储 结构 之 间 的 折 中 关系 。 我 们 发 现 对 于 架构 具有 两 个 250MHz 时 
钟 周 期 的 延 时 的 1024 位 的 总 线 宽度 是 合理 的 。 男 外 ， 按 合理 的 面积 预算 约束 ， 在 
90nm 工艺 下 ， 芯 片面 积 保 持 在 80mm 以下。 在 最 大 芯片 上 ，12 核 PicoSever 结构 
所 占据 的 面积 保守 估计 为 80mm 。 芯 片上 4 核 和 8 核 的 PicoServer 结构 的 面积 分 别 
是 40mm” 和 60mm? , 





图 9-2 PicoSever 的 描述 图 : 采用 3D HEBRAK CMP 架构 连接 到 DRAM 上 并 具有 
片上 网 络 接口 控制 器 (NIC) ， 来 提供 低 延 迟 高 带宽 网 络 | 


我 们 也 拓展 了 PicoSever 的 分 析 并 展示 了 在 PicoSever 架构 上 集成 Flash 的 影响 。 
对 于 这 两 种 配置 ， 我 们 提供 了 定性 分 析 : 中 把 Flash 作为 分 立 元 件 ; OE DRAM 和 
EBS LA PEHES Flash。 第 一 种 结构 由 更 大 的 系统 内 存 容 量 驱动 ， 而 第 二 
种 结构 的 驱动 可 为 小 型 系统 。 

本 章 安 排 如 下 : 在 9.2 节 我 们 通过 描述 服务 器 平台 的 概况 、3D 堆 释 技术 和 
DRAM 技术 的 趋势 来 说 明 此 次 工作 的 背景 。 在 9.3 节 ， 我 们 概述 了 设计 空间 探索 
的 方法 。 在 9.4 7, 我们 提出 了 PicoServer 架构 的 更 多 细节 ， 并 评估 了 各 种 
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PicoServer 结构 。 在 9.5 节 ， 我 们 展示 出 了 有 PicoServer 服务 器 架构 的 基准 测试 与 
传统 架构 且 没 使 用 3D 堆 又 技术 相对 比 的 结果 。 这 些 架 构 是 没有 3D EAH CMPs 
和 常规 的 具有 奔腾 4 特性 的 高 性 能 桌面 架构 。 摘 要 和 总 结 性 的 评论 在 9.6 市 中 
给 出 。 


9.2 背景 


本 节 提 供 了 目前 的 服务 器 平台 、3D HEBER A DRAM 技术 的 状态 概况 。 首 
先 展示 了 目前 服务 器 是 如 何在 数据 中 心 被 部 署 的 ， 并 且 分 析 了 当前 服务 器 的 负载 
表现 。 接 下 来 ， 解 释 了 3D 堆 苹 技术 的 状态 和 它 在 这 项 工作 中 是 如 何 被 应 用 的 。 
最 终 ， 展 示 出 了 DRAM 技术 的 优点 ， 并 解释 了 DRAM 在 服务 需 领 域 的 目前 和 将 
来 的 趋势 。 


9.2.1 服务 器 平台 


9.2.1.1 三 层 服务 器 体系 结构 

现在 数据 中 心 普遍 是 围绕 一 个 3 层 架 构 的 服务 器 建立 的 。 图 9-3 展示 了 一 个 3 
层 服务 需 结构 和 它 是 如 何 处 理 一 个 服务 请 求 的 。 第 1 个 层次 处 理 大 批量 的 客户 端 
(客户 终端 ) 的 请 求 。 第 1 层级 服务 器 处 理 Web 请 求 。 因 为 第 1 层级 服务 器 基于 每 
个 客户 端 上 处 理事 件 ， 它 们 是 独立 的 并 显示 高 级 别 线程 并 行 。 对 于 需要 大 量 的 计算 
和 数据 库 访问 的 请 求 ， 会 被 转发 到 2 级 服务 器 。2 级 服务 器 执行 用 户 应 用 程序 ， 该 
程序 能 够 翻译 脚本 语言 ， 并 确定 哪些 对 象 (通常 数据 库 对 象 ) 应 被 访问 。2 级 服务 
器 生成 数据 库 请 求 到 3 级 服务 器 。3 级 服务 器 接收 数据 库 请 求 ， 并 将 结果 返回 到 第 
2 层 的 服务 器 。 


TIER 1 





quam a 
E 用 组 件 
RE 


N Web 服务 器 





图 9-3 一 个 典型 的 3 层 服务 器 架构 。 第 1 层 一 一 Web 服务 器 ， 第 2 层 一 一 应 用 服务 器 ， 
第 3 层 一 一 数据 库 服务 器 


例如 ， 当 一 个 客户 请 求 Java Servlet Page (JSP 网 页 ) 时 ， 它 将 被 前 端的 1 级 服 
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务 器 接收 到 。1 级 服务 器 识别 和 处 理 Java Servlet Page, 并 启动 通常 使 用 远程 接口 信 
& (RMI) 向 2 级 服务 器 发 起 请 求 。2 级 服务 器 在 3 级 服务 器 上 发 起 数据 库 请 求 ， 
即 返回 产生 的 结果 并 将 相关 的 信息 发 送 到 这 个 流程 上 ， 一 直到 1 级 服务 器 。 最 终 ， 
1 级 服务 器 将 生成 的 内 容 发 送 给 客户 端 。 

3 级 服务 器 架构 普遍 用 于 当今 的 服务 器 网 络 中 ， 因 为 他 们 允许 每 个 级 别 对 其 负 
载 进 行 优化 。 然 而 ， 这 种 策略 并 不 总 是 被 采用 。 谷 歌 公司 在 每 个 级 别 上 都 采用 了 相 
同 的 服务 器 ， 因 为 此 规模 和 管理 问题 的 代价 是 弊 大 于 利 的 。 除 了 三 级 服务 器 的 数据 
库 磁 盘 系 统 ， 我 们 将 展示 ， 通 用 Picoserver 架构 适合 所 有 层次 。 

9.2.1.2 服务 器 负载 特性 

服务 器 的 工作 负载 显示 了 高 的 线程 级 并 行 性 (TLP) ， 因 为 通过 连接 级 并 行 性 ， 
客户 端的 连接 可 以 容易 地 映射 到 线程 级 并 行 。 表 9-1 显示 了 商业 服务 器 负载 的 表 
现 。 除 了 决策 支持 系统 ， 大 多 数 商业 服务 器 的 工作 负载 显示 了 高 的 线程 级 并 行 性 和 
低 的 指令 级 并 行 性 (ILP) 。 然 而 ， 为 了 利用 ILP， 和 常规 的 通用 处 理 需 通 稼 被 优化 。 
这 些 工 作 负载 受 高 缓存 未 命中 率 的 影响 经 常 暂停 机 器 。 这 导致 每 个 周期 的 指令 低 且 
处 理 器 资源 利用 率 差 。 我 们 的 研究 说 明了 这 一 点 ， 除 了 对 于 计算 大 量 的 工作 负载 的 
情况 ， 像 PHP 应 用 服务 、 视 频 流 服务 和 决策 支持 服务 ， 对 于 典型 的 服务 负载 ， 乱 
序 的 处 理 器 具有 0.21 ~ 0. 54 之 间 的 IPC 值 ， 例 如 ， 具 有 2MB 的 二 级 缓存 的 最 合适 
的 计算 负载 。 这 些 工作 负载 的 表现 并 不 好 是 因为 许多 请 求 数 据 已 经 被 直接 从 磁盘 存 
取 到 内 存 系统 ， 无 效 的 缓存 数据 导致 了 缓存 数据 的 未 命中 。 因 此 ， 我 们 大 致 可 以 
说 ， 单 线程 优化 的 乱 序 处 理 器 在 服务 器 上 的 工作 负载 表现 得 并 不 良好 。 男 一 个 令 人 
惊讶 的 是 大 多 数 服务 器 负载 将 相当 大 的 时 间 花 费 在 内 核 代 码 上 ， 而 SPECPU 基准 则 
不 是 这 样 。 这 个 内 核 代 码 主要 涉及 中 断 处 理 的 网 络 接口 控制 锅 (NIC) 或 磁盘 驱动 
器 、 数 据 包 传 输 、 网 络 堆栈 处 理 和 磁盘 缓存 处 理 。 


表 9-1 文献 [38] 中 适应 商业 工作 负载 的 行为 


z-----f- 
的 工作 集 


(D OLTP: 联机 事务 处 理 。 
ERP: 企业 资源 规划 。 
(9 DSS: 决策 支持 系统 。 
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最 终 ， 申 请 的 很 大 一 部 分 都 围绕 着 同 组 文件 。 这 些 文件 的 访问 请 求 接 入 内 存 和 
LO。 由 于 适度 的 计算 需求 ， 存 储 器 和 L/O 的 延迟 是 高 性 能 的 关键 。 因 此 ， 在 系统 
内 存 中 磁盘 缓存 对 提供 足够 的 吞吐 量 起 到 了 重要 的 作用 。 乔 无 磁盘 缓存 ， 因 硬盘 驱 
动 延 迟 带 来 的 性 能 下 降 是 不 可 接受 的 。 

若 使 这 类 工作 负载 表现 良好 ， 此 架构 应 自然 地 支持 多 线程 来 啊 应 众 客户 端的 独 
立 请 求 。 这 种 情况 表明 ，CMP 或 SMT 架构 要 更 好 地 利用 处 理 器 必 片 面积 。 

9.2.1.3 常规 服务 器 的 功 耗 组 成 

图 9-4 展示 出 当今 的 服务 器 平台 的 功率 下 降 。 此 服务 器 使 用 多 人 处理 器 心 片 和 简 
单 有 序 的 内 核 来 实现 功 耗 的 降低 。 功 率 下 降 表 明 其 中 1/4 是 由 处 理 副 消耗 的 ， 
1/4 是 由 系统 内 存 消 耗 的 ，1/4 是 由 
电力 供应 消耗 的 ，1/5 是 由 VO 接口 
消耗 的 。 由 此 可 以 看 出 ， 大 量 使 用 系 
, 统 内 存 会 导致 大 幅度 的 功率 消耗 。 这 
将 随 着 系统 内 存 时 钟 频率 和 内 存 大 小 
的 增加 而 增加 。 我 们 还 发 现 ， 尽 管 使 


C) Ab Har 
16GB 存储 器 
Quo 

田 人 磁盘 

加 服务 器 








用 较 人 简单 的 高 能 源 利用 率 的 内 核 ， 处 日 风扇 

理 器 仍然 会 产生 大 量 功 耗 。 由 于 片 外 B ACIDE 
接口 需要 高 的 IO 供电 电压 ， 因 此 总 功 耗 为 271W 
VO 接口 产生 了 大 量 功 耗 。LO 的 供 E] 9-4 2000 UltraSPARC 执行 

电 电 压 很 有 可 能 随 以 后 的 规模 而 降 SPECJBB 的 功率 下 降 


低 ， 但 是 可 能 不 会 如 内 核 供电 电压 的 
规模 那样 快速 降低 。 因 此 有 机 会 通过 片上 集成 系统 组 件 进一步 减 小 功 耗 。 最 后 ， 我 
们 发 现 根 据 电 源 供应 的 显示 ， 这 效率 有 些 低 下 。 这 是 因为 它 不 得 不 支持 多 级 电压 。 
减少 电源 轨 数 量 将 极 大 地 提高 电源 效率 。 三 维 堆 释 技术 的 潜在 的 好 处 有 : @ 通 过 芯 
片上 集成 更 多 的 系统 组 件 减少 由 处 理 器 和 LIAO 接口 消耗 的 功率 ; @ 通 过 在 服务 器 中 
减少 电源 轨 的 数目 来 提高 电源 效率 。 


9.2.2 三 维 堆 生 技术 


这 部 分 提供 了 3D 堆 释 技术 的 概况 。 在 过 去 ， 学 术 上 和 工业 上 都 付出 了 大 量 的 
努力 来 实现 3D HEBER OMT ， 但 成 败 参半 。 这 是 因为 需要 解决 许多 挑战 。 
它们 包括 : SONRISA GST MER. QAI HERR SE rm 
琶 引 起 的 局 部 热效应 。 然 而 ， 在 过 去 的 几 年 中 强大 的 市 场 力量 促进 了 对 移动 终端 领 
域 的 小 型 化 及 超 低 功 耗 的 需求 。 对 此 ， 多 个 商业 企业 已 经 开始 提供 可 靠 的 低 成 本 汞 
片 到 芯片 的 3D HEZHTCR | 

在 3D 堆 秋 技术 中 ， 典 型 的 芯片 键 合 方式 是 面对面 或 者 面 对 背 。 相 对 于 面 对 背 
的 键 合 方式 ， 面 对 面 的 键 合 方式 提供 了 较 高 的 芯片 到 芯片 的 通 孔 密度 和 更 低 的 面积 
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消耗 。 面 对 背 较 低 的 通 孔 密度 是 因为 硅 通 孔 (TSV) 不 得 不 通过 硅 衬 底 。 图 9-5 展 
示 出 如 何 使 用 3D 堆 释 技术 堆 秋 芯片 的 高 层次 例子 。 第 一 层 ( 从 底部 开始 算 起 的 ) 
和 第 二 层 之 间 是 面对面 的 键 合 ， 
而 第 二 层 与 第 三 层 之 间 是 面 对 育 
键 合 。 在 3D EE BUR IEH gE 


| 正面 到 

AHR, FURS RMR ARB 背面 键 合 
一 起 的 契机 。 例 如 ， 堆 司 DRAM sti 

和 逻辑 单元 的 结构 是 由 不 同 的 工 pec 正面 到 正 

面 键 合 


艺 步骤 制造 的 。 本 章 参 考 文献 
[43, 24, 16] 说 明了 在 逻辑 上 
HE DRAM 的 好 处 。 另 外 ， 在 porca 、 

垂直 方向 上 增加 第 三 个 维度 ， 整 图 9-5 一 个 3 E 3D IC 的 例子 

体 互 连 的 线 长 减 小 ， 且 可 在 较 低 

成 本 的 面积 上 增 大 总 线 宽带 。 相 比 全 局 互 连 ， 此 3D 通 孔 的 寄生 电容 和 电阻 是 可 以 
忽略 不 计 的 。 我 们 还 注意 到 ， 对 于 3D 通 孔 的 尺寸 和 间距 ， 仅 附加 了 一 个 可 接受 的 
面积 开销 。 在 90nm 技术 下 ， 三 维 通 孔 间距 相当 于 22A ， 这 大 约 是 一 个 6T SRAM 单 
元 的 尺寸 。 随 着 技术 的 成 熟 ， 该 尺寸 将 不 断 地 缩小 。 

在 表 9-2 中 的 ITRS 发 展 路 线 图 预测 了 在 不 久 的 将 来 会 进一步 使 用 堆 苹 技术 。 这 些 
连接 是 通过 垂直 于 芯片 上 的 通 孔 。 正 如 前 面 提 到 过 的 ，3D 互 连 通 筷 的 尺寸 在 1 ~3hm 
ZE, FA 1 ~6pm 的 间距 。 目 前 商业 上 能 支持 每 平方 厘米 1000000 4-38 £L 。 

表 9-2 对 于 功 耗 感知 平台 ，ITRS HMW” T 3D 堆叠 技术 、 存 储 器 阵列 单元 和 最 大 的 功 耗 
预算 。 相 比 于 SRAM, ITRS 预测 表明 当 DRAM 密度 超过 SRAM HE 15 ~ 18 倍 时 ， 
会 采用 3D 堆 释 技术 将 大 容量 DRAM 集成 在 上 芯片 上 


TY 
Le 
EM 





低 成 本 /手持 HSH / MA 
SRAM 浓度 /( Mbit/cm" ) 

在 生产 时 DRAM 浓度 /(MbiVem?) | 1940 | 

最 大 功率 预算 性 价 比 系统 /W | 104 

最 大 功率 预算 的 低 成 本 /手持 系统 与 电池 /W 


表 9-3 三 维 堆 生 技术 参数 


正面 到 背面 面对面 OO R MIT 3D FPGA 
Ah TERPS TEA TEF 
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使 用 3D 堆 秋 技 术 的 整体 产量 是 由 每 个 单独 的 芯片 层 的 产量 决定 的 。 因 此 ， 公 
力 于 设计 具有 高 产量 的 芯片 块 是 重要 的 。 存 储 器 堆 倒 相 比 于 逻辑 到 逻辑 的 堆 全 是 更 
好 的 选择 。 通 常 存储 器 件 具 有 更 高 的 产量 ， 因 为 容错 正好 符合 它们 的 重复 结构 。 例 
如 ， 重 新 融合 额外 的 位 线 以 补偿 有 缺陷 单元 和 应 用 单 比 特 纠 错 逻 辑 来 提升 存储 骼 的 
产量 。 一 些 研究 包括 本 章 文献 [48] 显示 DRAM 产量 极 高 ， 这 意味 着 建立 单 层 逻 
辑 芯 片 和 多 层 DRAM 堆 释 芯片 的 产量 会 接近 普通 的 逻辑 心 : 片 的 产量 。 


9.2.3 DRAM 技术 


一 部 分 介绍 了 DRAM 技术 在 服务 器 空间 的 优势 。 今 天 的 DRAM 通常 由 应 用 
se 特别 地 ， 对 于 服务 器 平台 ，DDR2/DDR3 DRAM 作为 存 
储 器 系统 的 主要 解决 方案 已 经 时 过 境 迁 。 相 比 于 DDR2/DDR3, FBDIMM DRAM 
具有 更 高 的 吞吐 量 和 更 高 的 容量 ， 已 作为 一 个 替代 产品 出 现 ， 但 其 功 耗 大 的 问题 
仍 有 竺 解决 。 而 网 络 负载 的 服务 器 空间 RLDRAM 和 NetRAM' ”也 是 很 受 欢 迎 
的 选择 。 

这 些 存储 器 的 普通 特性 是 高 吞吐 量 和 低 延 时 。 在 服务 器 空间 ，DRAM 必须 满足 
高 吞吐 量 和 低 延 时 来 实现 高 性 能 。 但 是 只 有 增加 DRAM 1/0 接口 和 DRAM 阵列 的 
功 耗 才能 达到 高 性 能 。 因 此 L/O 和 DRAM 功 耗 占据 整体 功 耗 的 显著 部 分 〈 正 如 我 
们 在 9. 2. 1. 3 节 中 所 提 到 的 ) 。 工 业 上 通过 减少 IO 电源 电压 和 引进 以 牺牲 吞吐 量 
和 延迟 为 代价 的 低 功 耗 版 本 的 DDR2 接口 来 解决 这 个 问题 。 我 们 将 证 明 ， 使 用 3D 
堆 秋 技术 的 DRAM HER AT WAGE HES At BAR ERY DRAM 接口 的 同时 具有 更 小 的 
功 耗 。 


9.3 万 法 


这 一 部 分 描述 了 我 们 在 评估 3D 堆 秋 技术 好 处 时 使 用 的 方法 。 我 们 研究 的 架构 
是 从 一 个 叫 作 M5 “的 微 架 构 模 拟 器 获得 ，MS5 能 够 运行 Linux， 并 评估 全 系统 级 性 
能 。 通 过 全 系统 模拟 需 来 模拟 3D 堆 释 技术 带 来 的 好 处 ， 同 时 模拟 了 在 MS 上 连接 
到 多 个 客户 端的 多 个 服务 器 ， 客 户 端 请 求 由 用 户 级 网 络 应 用 程序 生成 。 通 过 衡量 服 
务 器 的 吞吐 量 ， 即 网 络 带宽 或 每 秒 传输 量 可 以 估计 其 性 能 。 芯 片面 积 估算 源 于 以 前 
的 出 版 物 ， 延 时 和 功 耗 通过 已 开发 的 模型 来 估算 呈 05502.577 | DRAM 时 序 和 功率 
从 IBM 和 Micron 技术 数据 表 [3] 中 获得 。 我 们 的 方法 将 在 下 面 的 章节 中 详细 
描述 。 


9.3.1 仿真 研究 


9.3.1.1 全 系统 架构 仿真 
为 了 估算 PicoSever 的 性 能 ， 使 用 了 M5 全 系统 仿真 。 在 可 配置 的 架构 上 ，M5 
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启动 未 修改 的 Linux 内 核 。 在 模拟 器 中 多 个 系统 被 定义 ， 用 来 模拟 客户 端 和 服务 
器 ， 并 通过 以 太 网 链 路 模型 连接 。 在 服务 器 端 可 执行 Apache- WIRI at, JXUSL— 
视频 流 媒 体 服 务 器 ，mySQL 一 数据 库 服务 器 和 NFS 一 文件 服务 器 。 在 客户 端 可 执行 
代表 请 求 动态 及 静态 网 页 内 容 的 基准 程序 、 视 频 流 请 求 、 数 据 库 查 询 以 及 网 络 连接 
文件 。 为 了 便于 比较 ， 我 们 定义 奔腾 4 系统 和 类 似 多 处 理 器 系统 芯片 ， 这 与 本 
章 参考 文献 [36] 中 所 示 类 似 。 另 外 介绍 了 在 这 些 平 台 上 使 用 3D 堆叠 技术 的 几 种 
配置 。 我 们 假设 用 3D 堆 释 技术 ,那么 更 宽 的 总 线 宽 度 可 在 低 功 耗 下 实现 。 
表 9-4 Shan Y Bri FH BU SEU H Ac e 

X 9-4 通用 仿真 配置 。DDR2 DRAM 模块 中 产生 的 系统 存储 器 延 时 。 我 们 假设 核 时 钟 频率 

( 低 于 1GHz) 有 更 高 的 组 关联 性 。 由 于 在 多 核 平台 较 长 的 全 球 互 连 长 度 ” ，L2 AFHR 


一 级 缓存 2way 16KB 2way 128KB 4way 16KB per core | 4way 16KB per core 


8way 256KB 7. 5ns 8way 2MB 7. 5ns 8way 2MB 16ns 
二 级 缓存 N/A 
unloaded latency unloaded latency unloaded latency j 


— 64bit € 400MHz/ | 64bit 9 400MHz/ 
-— 1024bit@ 250MHz 1024 bit@ 250MHz 


128MB -512MB 
系统 内 存 S12MB DDR2 DRAM | 512MB DDR2 DRAM | 512MB DDR2 DRAM > JD SRNY 


(D PicoServer 平台 上 使 用 3D BHR, PicoServer 的 核心 时 钟 频率 通常 S00MHz。 与 1GHz 的 内 核 时 钟 频 率 
PicoServer 配置 以 后 用 于 显示 3D 堆肥 技术 的 影响 。 


9.3.1.2 服务 器 基准 测试 

我 们 使 用 几 种 能 和 客户 请 求 直 接 联系 的 基准 测试 。 为 了 测量 网 络 服务 的 性 能 ， 
使 用 两 种 网 络 内 容 处 理 基 准 测试 即 SURGE “| 和 SPECweb99"""! 。 这 两 个 基准 测试 要 
求 超过 1GB 的 文件 集 。 一 个 使 用 PHP 的 网 页 脚本 处 理 基准 测试 SPECweb2005 ?! gi 
选择 来 表示 脚本 工作 负载 。 一 种 使 用 RTSP 协议 和 UDP 协议 的 视频 流 基准 测试 
Fenice “被 选择 来 测量 响应 试 工作 负载 的 表现 。 对 于 一 个 文件 共享 基准 测试 ， 使 用 
NFS 服务 器 并 用 dbench (基准 测试 ) 强调 它 。 最 后 ， 我 们 进行 了 两 个 数据 库 的 基 
准 测试 来 衡量 第 二 层 和 第 三 层 工 作 负 载 的 数据 库 性 能 。 

SURGE, SURGE 基准 测试 代表 客户 对 静态 网 页 内 容 的 需求 。 我 们 修改 SURGE 


延迟 对 于 单 核 和 多 核 的 配置 不 同 
不 带 3D HER 不 带 3D HEE AR" 3D HER 。 12-500MHz/1000MHz 
工作 频率 4GHz 500MHz/1GHz 
处 理 器 类 型 “| out-of-order -— 


65 bit@ 250MHz 1024 bit@ 250MHz 
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的 文件 集 并 使 用 一 个 zipf 分 布 产 生 合理 的 客户 端 请 求 。 基 于 zipf 分 布 ， 请 求 一 个 大 
约 12KB 的 文件 大 小 的 静态 网 页 ， 将 花费 客户 请 求 时 间 的 50% 。 

SPECweb99。 为 了 评估 一 个 混合 的 静态 网 站 和 简单 的 动态 网 站 内 容 ， 我 们 使 用 
一 个 SURGE 的 修改 版 本 来 请 求 SPECweb99 文件 集 (其 表现 在 表 9- 1 中 被 说 明 ) 。 
对 于 SPECweb99, ， 我 们 使 用 默认 的 配置 来 产生 用 户 请 求 。70% 的 客户 请 求 是 对 于 静 
态 网 站 内 容 的 ，30% 的 客户 请 求 是 对 于 动态 网 站 内 容 的 。 

SPECweb2005 。 肢 本 语言 是 一 种 描述 网 页 的 流行 的 方式 。SPECweb2005 提供 3 
种 类 型 的 基准 : 银行 基准 一 一 模拟 用 户 的 网 上 银行 活动 ， 电 子 商务 基准 一 一 模拟 网 
上 购买 活动 ， 支 持 基准 一 一 模拟 网 上 流 活动 。 所 有 的 基准 测试 需要 一 个 脚本 解释 器 
来 产生 动态 网 页 。 我 们 使 用 PHP 解释 器 来 测量 2 级 服务 器 的 行为 。 从 SPECweb99 
All SURGE 客户 方法 的 描述 生成 的 客户 端 请 求 。 

Fenice。 视 频 请 求 服务 也 是 1 级 服务 器 的 一 个 重要 的 工作 负载 。 对 于 版 权 保护 
和 实况 广播 来 说 ，RTSP 协议 通常 用 于 实时 视频 播放 。Fenice 是 一 个 开源 项 目 流 '“ ， 
它 提供 工作 负载 并 支持 RTS 协议 。 我 们 修改 它 来 支持 多 线程 。 客 户 请 求 由 一 个 
nemsi 的 修改 版 本 和 一 个 支持 MPEG 播放 器 的 RTSP 生成 。Nemesi 也 来 自 于 开源 项 
目 流 工程 。 我 们 产生 了 能 够 充分 利用 服务 器 CPU 720 x480 分 辩 率 的 MPEG2 帧 的 高 
质量 16Mbit/s 的 数据 流 的 多 个 客户 端 请 求 。 

dbench。 这 个 基准 测试 通常 用 来 强调 NFS 守护 进程 。 在 测试 中 ， 我 们 使 用 多 
线程 的 且 在 Linux 内 核 中 可 用 的 NFS 守护 进程 。 客 户 端 用 dbench 产生 NFS 通信 ， 
已 锁定 文件 服务 器 。Dbench 产生 读 写 文件 服务 器 的 工作 负载 的 同时 锁定 这 些 文 件 
使 得 不 同 的 客户 端 不 能 同时 访问 。 

OLTP。 在 线 交 易 处 理 是 一 个 典型 的 在 2 级 和 3 级 服务 器 上 执行 的 工作 负载 
(其 行为 在 表 9-1 中 示 出 ) 。TPC 委员 会 对 OLTP 基准 进行 了 详细 的 描述 。 我 们 使 用 
TPC- C 的 修改 版 本 由 称 为 DBT2 ”的 开放 源 代 码 开发 实验 室 (OSDL) 提供 。DBT2 
生成 交易 订单 。 我 们 的 数据 库 服 务 是 MySQL 5. 0。 我 们 使 用 InnoDB 存储 引擎 、 支 
持 交 易 并 对 多 核 提 供 合理 数量 的 扩展 。 我 们 产生 了 1GB 仓库 , 其 通常 用 于 计算 小 规 
模 密 集 型 数据 库 。 由 于 仿真 时 间 限 制 ， 我 们 选择 了 一 个 小 的 工作 集 大 小 。 据 此 我 们 
选择 缓冲 池 的 大 小 。 

DSS。 决 策 支 持 系 统 是 另 一 个 典型 的 工作 负载 ， 它 用 于 评估 第 二 层 和 第 三 层 服 
务 器 。 我 们 使 用 TPC-H, BJ DSS 工作 负载 的 当前 版 本 。 由 OSDL (DBT3 ) 5 提供 的 
TPC- H 的 再 修改 版 本 在 本 研究 中 被 使 用 。 我 们 加 载 了 TPC- H 数据 库 到 mySQL 数据 
库 系统 ， 并 且 使 用 确定 的 TPC- H 查询 来 衡量 性 能 。 查 询 缓 存 被 禁用 ， 以 防止 由 于 
缓存 带 来 的 查询 时 间 加 速 。 为 了 将 模拟 时 间 缩 短 到 合理 的 量 ， 在 许多 TPC-H 查询 
中 我 们 只 进行 和 测量 Q22 查询 的 时 间 。Q22 查询 花费 适量 的 时 间 来 执行 和 说 明 其 
性 能 ， 见 表 9-1。 
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9.3.2 估算 功率 及 面积 


功 耗 和 面积 的 估算 很 难 做 到 非常 精确 。 为 了 做 出 合理 的 估算 和 展示 总 体 趋势 ， 
我 们 采纳 了 行业 白皮书 、 数 据 表 和 在 芯片 面积 学 术 界 的 出 版 物 ， 比 较 了 最 初 分析 的 
功 耗 模型 与 实际 的 实施 结果 ， 并 广泛 使 用 了 周期 级 仿真 技术 。 在 接 下 来 的 小 节 中 ， 
我 们 将 对 此 进行 进一步 讨论 。 

9.3.2.1 处 理 器 - 

我 们 很 大 程度 上 依赖 于 用 ARM 处 理 器 的 数据 报道 ”来 估算 处 理 器 的 功 耗 
和 芯片 面积 。ARM 是 一 个 简单 的 顺序 32 位 处 理 器 代表 ， 它 是 适合 于 PicoServer 的 。 
由 于 和 PicoServer 核 架 构 的 相似 之 处 ， 根 据 本 章 参 考 文献 [20, 1, 51] 发 表 的 数 
H, 我 们 推断 核心 功 耗 为 500MHz 的 PicoServer 的 芯片 面积 和 功 耗 。 表 9-5 列 出 这 
些 估计 值 同时 在 文献 [1,51] 中 也 列 出 ， 并 和 奔腾 4 核 的 值 做 对 比 。 还 对 每 个 核 
心 芯片 的 预期 面积 进行 了 分 析 。 我 们 从 ARM, MIPS, PowerPC 和 其 他 类 似 规 模 的 
顺序 处 理 右 那里 收集 了 几 个 处 理 器 芯片 的 面积 数 。 


表 9-5 各 种 微 处 理 器 发 布 的 功 耗 值 


D 对 于 90nm 的 不 包括 二 级 缓存 的 Xscale KH ARS! 。 
(2) 对 于 PicoServer 核 ， 我 们 估计 功 耗 在 ARM11 Xscale 的 范围 内 。 


表 9-5 中 所 列 的 功率 值 包括 静态 功 耗 。 与 ARM 核 的 值 相 比 ， 我 们 对 于 500MHz 
的 PicoSever 核 的 估算 是 保守 的 ， 尤 其 是 对 于 本 章 参 考 文献 [51], BF Xscale 核 在 
1. 5GHz 和 1.3V 下 功率 为 830mW ， 当 施加 3 倍 时 钟 频 率 和 有 额外 扩大 电压 的 机 会 
时 ， 对 于 90nm 工艺 的 500MHz 频率 的 PicoServer 核 ， 预 计 功 率 消 耗 值 为 190mW 
(EM) 是 保守 的 。 对 于 在 其 他 核 时 钟 频 率 ， 如 1CHz， 我 们 产生 电源 与 频率 图 。 
它 遵循 立方 关系 。 我 们 假设 了 一 个 逻辑 深度 为 24 F04 ( 扇 出 4) 的 逻辑 门 ， 并 
且 使 用 90nm 工艺 PTM HERE" 

未 来 在 PicoServer 核 中 支持 64 位 似乎 不 可 避免 。 当 我 们 看 到 了 像 MIPS 和 Xeon 
这 样 商用 的 内 核 为 了 文 持 64 位 而 造成 的 面积 和 功 耗 的 开销 之 后 ， 对 于 PicoSeve 核 ， 
我 们 预期 ， 因 支持 64 位 造成 的 面积 和 功 耗 的 开销 是 适中 的 。 对 于 二 级 缓存 ， 我 们 
参考 了 本 章 文献 【56 ] ， 并 从 实际 的 测量 中 缩放 了 面积 和 产生 的 功 耗 。 假 设 当 缓存 
存 取 率 是 100% 时， 本 章 文 献 [56] 中 的 功率 值 产生 。 因 此 ， 当 假设 漏电 流 消耗 二 
级 缓存 总 功率 的 30% 时 ， 我 们 通过 大 小 和 存 取 率 衡量 二 级 缓存 。 


EDA、 设 计 和 微 体 系 结构 
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9.3.2.2 考虑 三 维 堆 又 技术 的 互 连 

为 了 研究 的 目的 ， 我 们 采用 了 本 章 参 考 文献 [12, 26, 50] 中 公布 的 数据 作 
为 典型 的 3D 堆 秋 互 连 。 一 般 来 说 ， 芯 片 到 芯片 的 连接 电容 小 于 3 不， 我 们 通过 从 
3DMagic 建 模 中 提取 的 寄生 电容 , 也 验证 了 这 一 点 。3DMagic 是 由 MIT 近期 开发 的 
工具 。 我 们 发 现 提 取 的 电容 值 是 2. 7 位 ， 符 合 本 章 参 考 文 献 [26] 中 的 结果 。 通 过 
与 二 维 片 上 互 连 的 比较 ， 一 个 全 局 具有 每 mm 400fF 电容 的 互 连 线 被 建立 ， 这 些 基 
于 本 章 参 考 文 献 [27] 。 因 此 ， 我 们 假设 在 3D 互 连 中 起 到 连接 作用 通 孔 的 电容 是 
可 以 忽略 的 。 对 于 可 能 在 芯片 之 间 的 YO 互 连 的 数量 ， 本 章 参考 文献 [26] 报道 
了 每 mm? 10000 个 的 连接 数值 。 我 们 需要 的 没有 这 么 多 。 根 据 研 究 ， 我 们 需要 大 约 
1100 个 O 连接 : 32 位 用 于 地 址 总 线 ，1024 位 用 于 数据 总 线 和 其 他 的 一 些 控制 信 
号 。 为 了 估算 在 处 理 器 和 外 围 层 中 的 互 连 电 容 ， 我 们 再 次 参考 本 章 参 考 文献 [27 ] 
来 产生 分 析 和 建 模 值 。 我 们 选择 了 12mm 的 线 长 以 满足 80mm 芯片 ，1. 3 倍 的 宽度 / 
高 度 比 ， 并 且 根 据 更 小 的 芯片 尺寸 按 比例 缩小 导线 长 度 。 与 本 章 参 考 文献 [22 | 
所 示 的 已 有 实施 了 的 2D 芯片 的 线 上 互 连 导 线 长 度 减 少 的 预测 相 比 ， 假 设 我 们 能 减 
少 33% 的 互 连 线 电容 。 基 于 这 些 最 初 的 值 ， 我 们 从 Hspice 仿真 中 ， 计 算 所 需 的 中 
继 器 数量 来 驱动 在 250 - 400MHz 范围 内 的 互 连 。 由 于 在 此 范围 内 频率 是 相对 较 低 
的 ， 我 们 只 需要 最 多 2 ~3 个 中 继 器 来 驱动 这 个 线路 。 

我 们 测定 触发 速率 以 及 电线 接 人 速率 ， 并 使 用 公 知 的 动态 功率 方程 计算 互 连 功 
率 。 表 9-6 出 示 了 在 2D 的 情况 下 ，3D HBA 2D 必 片 外 实现 预期 的 1024 位 的 互 连 
电容 。 粗 略 地 讲 ， 片 上 实施 的 电容 最 多 为 片 外 实施 的 33% 。 另 外 ， 因 为 在 IO 端口 
处 的 供电 电压 通常 是 1.8 ~2.5V， 高 于 通常 芯片 的 供电 电压 ， 与 片上 相 比 ， 片 外 实 
施 具 有 更 高 数量 级 的 整体 的 互 连 功率 功 耗 。 我 们 在 基准 电路 中 发 现 ， 其 具有 适中 的 
触发 率 ， 经 典 小 配置 适中 的 存 取 速率 ， 并 且 适 中 的 总 线 频 率 一 一 250MHz， 因 此 我 
们 得 出 结论 ， 芯 片 块 〈 管 芯 ) 间 的 互 连 功 率 对 整体 功 耗 贡献 极 小 。 

表 9-6 2D、3D 和 2D 片 外 的 1024 位 总 线 的 电路 的 寄生 互 连 电容 


9.3.2.3 DRAM 

我 们 使 用 本 章 参 考 文献 [45] 的 数据 作为 PicoServer 的 DRAM 面积 估计 。 目 
前 ， 合 理 地 说 ， 在 90nm 工艺 节点 下 ，64MB 的 DRAM 芯片 需要 80mm 面积 。 

HL DRAM 与 处 理 需 是 分 开封 装 的 ， 并 通过 IO 端口 和 线 在 PCB 上 访问 。 然 
而 ， 对 于 我 们 的 体系 结构 ，DRAM 存在 于 片上 ， 并 通过 3D HER TLE eB bat 
和 外 围 设备 。 因 此 ， 在 设计 中 避免 了 由 封装 所 必需 的 整个 印 制 电 路 板 的 驱动 片 外 信 
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号 产生 的 功 耗 。 使 用 Micron DRAM 的 电子 表格 计算 器 ”， 通 过 修正 来 省 略 热 焊 点 
功 耗 (端口 )， 并 从 MS 获得 数据 ， 这 些 数据 包括 花费 在 DRAM 读 取 、 写 入 和 页 面 
命中 率 上 的 周期 数 ， 进 而 得 到 DRAM 的 平均 功率 。 我 们 比较 了 引 自 参考 文献 的 
DRAM 估计 功率 ， 特 别 是 与 SunFire T2000 服务 器 电源 计算 器 "产生 的 DRAM 功率 
值 比较 。Micron 电子 表格 使 用 实际 的 电流 测量 值 对 于 每 个 DRAM 操作 一 一 读 、 写 、 
刷新 、 块 预 充 等 。 我 们 假设 了 一 个 具有 1. 8V 电源 电压 的 设计 。 

9.3.2.4 ”网络 接 口 控制 器 一 一 NIC 

由 于 缺乏 对 商业 网 络 接口 控制 器 (NIC) 结构 的 详细 人 信息， 导致 难以 建立 NIC 
功率 的 解析 模型 。 在 仿真 中 ， 我 们 以 美国 国家 半导体 公司 的 82830 FIKAR RHE h 
器 作为 参照 。 该 芯片 使 用 千 兆 位 媒体 独立 接口 (GMI) 作为 MAC 层 以 太 网 卡 和 物 
EJE (PHY) 之 间 的 接口 。 通 过 分 析 数 据 手册 发 现 该 芯片 消耗 的 最 大 功率 为 
743mW'" 。 这 个 功率 基于 180nm 工艺 。 假 定 当 所 有 的 输入 和 输出 引 脚 开启 时 的 功 
耗 为 最 大 功 耗 ， 然 后 对 数据 降 额 以 作为 我 们 测试 使 用 。 此 外 ， 假 定 静 态 功 率 占 心 片 
最 大 功 耗 的 30% 。 考 虑 到 自 本 章 参 考 文献 [4] 发 表 以 来 网 络 接口 控制 器 (NIC) 
的 显著 发 展 ， 我 们 认为 这 个 功 耗 模型 是 足够 保守 的 。 


9.4 PicoSever 架构 


K 9-7 展示 了 和 常规 DRAM、XDR DRAM、 二 级 缓存 和 应 用 3D BERRA E 
DRAM 间 延 迟 和 带宽 的 对 比 。 具 备 1024 位 带宽 总 线 的 3D HEB Hr. E DRAM 在 延迟 
和 带宽 上 可 与 二 级 缓存 、XDR DRAM 相 媲 美 。 这 表明 如 果 使 用 又 堆 技术 ， 则 不 需 
要 二 级 缓存 。 此 外 ， 移 除 常规 的 DRAM 片 外 驱动 器 可 以 减少 50% 以 上 “的 访问 延 
迟 。 这 有 力 地 证 明了 片上 DRAM 可 作为 有 效 的 二 级 缓存 使 用 。 男 一 个 佐证 是 ， 
DRAM 厂商 正在 生产 和 推广 减少 随机 存 取 延迟 的 DRAM。 因 此 ， 我 们 的 PicoServer 
架构 不 具有 二 级 缓存 ， 而 是 使 用 片上 DRAM 通过 一 个 共享 总 线 体系 结构 连 到 每 个 
核心 中 的 一 级 缓存 。 此 片上 DRAM 的 作用 是 一 个 主 系统 存储 器 。 

表 9-7 带宽 和 延迟 表明 相 比 在 本 章 参 考 文献 [39, 56] 中 指出 的 二 级 缓存 ， 片 上 DRAM 可 以 
方便 地 提供 足够 的 内 存 带宽 。SDRAM 和 DDR2 DRAM 的 平均 存 取 延迟 估计 为 (RCD +1CAS, 
其 中 ¢RCD 表示 RAS 到 CAS 延迟 ，tCAS 表示 CAS 延迟 。 对 于 XDRAM HE, 
tRAC-R 被 用 来 表示 其 延 时 ， 其 中 ，tRAC-R 表示 读 取 访问 时 间 


SDRAM DDR2 DRAM | XDR DRAM 二 级 缓存 
@ 1. 2GHz 


(D 不 带 3D ME E RA OE TEE TA REG. 24 3D 堆 释 优化 应 用 时 ， 片 上 的 DRAM 延迟 预计 减少 超 
i 50% (47! 。 
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PicoServer 架构 由 单一 问题 的 循序 处 理 器 组 成 一 个 多 处 理 器 芯片 ， 这 种 结构 天 
然 适 用 于 高 水 平 TLP 应 用 565] 。 每 个 PicoServer 的 CPU 内 核 有 额定 500MHz 时 钟 ， 
并 且 具 有 指令 和 数据 缓存 ， 同 时 数据 缓存 使 用 MESI 缓存 一 致 性 协议 。 研 究 显示 ， 
大 多 数 总 线 的 流量 是 由 缓存 未 命中 流量 产生 的 ， 而 不 是 由 于 缓存 一 致 性 。 这 是 因为 
目标 应 用 程序 空间 的 特性 和 较 小 的 一 级 缓存 ， 即 16KB 的 指令 和 每 个 核心 16KB 的 
数据 缓存 。 当 前 的 密度 下 ， 在 PicoServer 的 片上 的 DRAM 堆栈 的 容量 是 几 百 兆 字 
节 。 在 不 久 的 将 来 ， 这 将 上 升 到 数 千 兆 字 节 ， 如 表 9-2 中 所 述 。 其 他 部 分 如 网 络 接 
口 控制 器 (NIC) 、DMA 控制 器 和 一 个 完整 系统 所 需 的 附加 外 围 设 备 都 将 被 集成 在 
CPU 芯片 上 。 


9.4.1 核心 架构 和 多 线程 的 影响 


PicoServer 是 由 具有 5 级 流水 线 的 简单 单 问题 循序 内 核 组 成 。 假 设 每 个 内 核 是 
32 位 架构 。 在 一 个 服务 器 工作 负载 中 分 支 预测 仍然 是 有 益 的 。 每 个 核心 拥有 具有 
1KB 历史 表 的 混合 分 支 预测 器 。 研 究 表 明 ， 为 服务 器 工作 负载 分 文 预测 的 准确 度 
约 为 95% 。 

每 个 核心 还 包括 支持 共享 内 存 协议 和 存储 需 控 制 器 直 连 DRAM 的 架构 。 存 储 
右 控 制 胡 对 总 线 监 听 和 缓存 未 命中 做 出 反常 啊 应 。 对 于 一 个 DRAM HRK, FAR 
控制 器 传递 地 址 、 数 据 写 人 存储 天 或 读 取 CPU AY ID. CPU 的 了 D 需 要 用 以 返回 读 出 
数据 的 线路 。 估 计 单 核 芯片 面积 为 4~S$mm (在 表 9-5 示 出 ) 。 

尽管 可 以 从 多 线程 得 到 一 些 好 处 (在 后 面 的 段落 中 描述 ), 但 由 于 仿真 环境 的 
限制 我 们 假设 不 支持 多 线程 。 在 不 大 量 修改 一 个 商用 Linux 内 核 的 情况 下 ， 超 过 16 
个 核 或 线程 时 很 难 按 比 例 进 行 服 务 器 应 用 。 出 于 这 个 原因 ， 我 们 在 单 核 上 运行 多 个 
线程 以 考察 多 线程 。 并 以 此 推论 在 多 核 情 况 下 ， 使 用 3D HBRAN B E EE ZEE 
数 。 多 线程 具有 在 长 的 位 到 内 存 时 通过 线程 上 下 文 切换 来 提高 整体 吞吐 量 的 潜力 。 

为 了 研究 对 多 线程 PicoServer 的 影响 ， 我 们 假设 多 线程 文 持 包含 一 个 完整 的 线 
程 上 下 文 ， 即 寄存 器 文件 、 存 储 缓冲 器 和 中 断 陷 阱 单元 。 需 要 一 个 额外 的 流水 线 级 
来 调度 线程 。 我 们 假定 支持 4 个 线程 的 芯片 面积 成 本 约 为 50% 。 尽 管 本 章 参 考 文 
献 [39] 中 预计 Niagara 核 只 需 20% 的 芯片 面积 成 本 来 文 持 4 线程 ， 然 而 我 们 的 核 
要 小 得 多 一 一 5mm 与 16mm 。 本 章 参考 文献 [20, 51] 估算 寄存 器 和 架构 状态 芯 
片面 积 占 总 芯片 面积 的 比例 更 大 。 因 此 ， 对 于 PicoServer 核 我 们 估计 了 更 大 的 面积 
成 本 。 

在 多 线程 饶 究 中 ， 我 们 改变 从 单 核 到 存储 器 的 可 支持 线程 数 和 访问 延迟 以 测量 
网 络 带 宽 (一 种 吞吐 量 指标 ) 。 我 们 分 析 了 正在 运行 的 SURGE ， 因 为 其 具有 最 高 的 
一 级 缓存 未 命中 率 ， 这 意味 着 它 将 从 多 线程 中 受益 最 多 。 在 本 研究 中 使 用 的 指标 是 
网 络 总 带宽 和 每 平方 毫米 网 络 带宽 ， 并 通过 改变 缓存 大 小 来 观察 对 线程 的 影响 。 

图 9-6 和 9-7 显示 了 模拟 结果 。 从 这 些 能 够 得 出 结论 : 线程 确实 有 助 于 提高 整 
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体 吞 吐 量 ， 但 是 考虑 面积 成 本 和 3D 堆 释 的 影响 时 这 种 提高 只 有 有 限 的 程度 。 三 维 
堆 友 通 过 简化 存储 器 接口 核心 并 降低 传送 等 待 时 间 的 方式 减少 了 存储 需 访 问 时 间 。 
图 9-6b 和 图 9-7b 中 所 示 的 曲线 三 维 堆 友 存储 器 可 以 被 访问 数 十 次 。 后 图 表明 ， 如 
果 将 面积 效率 和 吞吐 率 放 在 一 起 考虑 ， 限 制 到 只 有 两 个 线程 时 最 佳 。 我 们 还 发 现 ， 
增加 核 中 额外 的 线程 ， 内 存 和 IO 流量 同时 增加 。 因 此 ， 系 统 必须 能 够 提供 足够 的 
VO 和 存储 器 带宽 以 适应 增加 的 线程 。 和 否则， 线程 将 不 利于 整个 系统 的 厨 吐 量 。 


-—8KB-s-16KB-«-32KB 8K Bæ- 10K Bs 32KB --8KB-s-16KB-- 32KB 


edi 
S NÉS 


网 络 带宽 (Mbit/s) 
282 
Wd £i dr (Mbit/s) 





a) 内 存 延 迟 =1 b) 内 存 延 迟 =10 c) 内 存 延 迟 =100 


图 9-6 对 于 SURGCE， 多 线程 的 不 同 存储 器 延迟 对 于 不 同 的 4 种 方式 设置 相关 联 的 缓存 大 小 
(8KB, 16KB, 32KB) 和 不 同 的 线程 数 的 影响 。 我 们 假设 的 核心 主 频 为 500MHz 





" -«-8KB-a- 16K B -«-32KB -«-8K B-a- 16K Bs- 32KB -*-8KB -a-16KB-«- 32KB 
70 
60 
o 50 
E 40 
= 30 
= 20 
10 
0 

i 3 # 8 íi 2 4 3 

线程 数 线程 数 
a) 内 存 延 迟 =1 b) 内 存 延迟 =10 c) 内 存 延迟 =100 


图 9-7 当 存 储 器 延 时 在 SURGE 中 变化 ， 多 线程 对 于 Mbps/mm” 
的 影响 。 相 同 的 设置 和 假设 应 用 在 图 9-6 中 


9.4.2 宽 共 享 总 线 架 构 


PicoServer 采用 一 个 简单 的 宽 共 享 总 线 架 构 以 提供 高 内 存 带 宽 ， 并 充分 利用 3D 
堆 合 技术 的 优势 。 我 们 的 总 线 架 构 是 由 在 MS 上 的 SURGE 运行 决定 的 。 我 们 限制 
了 对 于 SURGE 的 测试 ， 因 为 它 在 电路 基准 的 每 个 核 中 产生 了 有 代表 性 的 缓存 未 命 
中 率 。 要 探索 总 线 架 构 的 设计 空间 ， 首 先 要 在 单 共 享 总 线 上 模拟 以 128 位 ~ 2048 
位 的 不 同位 宽 ， 并 改变 超 缓存 行 大 小 以 及 以 匹配 总 线 宽 度 (从 16 ~ 256 个 字 节 改 
25), impia To (吞吐 量 的 度量 ) 以 确定 总 线 宽度 对 PicoServer 的 影响 。 如 
图 9-8a 所 示 ， 相 对 较 宽 的 数据 总 线 用 来 拓展 网 络 性 能 ， 以 满足 较 好 的 缓存 未 命中 
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需求 。 这 是 因为 ， 共 享 总 线 上 为 窄 总 线 带 生 成 大 量 通信 造成 大 量 总 线 争 夏 ， 如 
图 9-8b，c 所 示 。 当 减少 总 线 宽度 时 ， 总 线 流量 的 增加 造成 了 延迟 的 超 线 性 增加 。 
减少 总 线 的 利用 率 意味 着 降低 总 线 仲裁 延迟 ， 从 而 提高 了 网 络 带宽 。 宽 总 线 宽度 通 
过 人 允许 在 一 个 事务 中 复制 一 大 块 数据 ， 也 有 助 于 加 快 NIC DMA 传输 。 为 典型 的 
PicoServer 的 4、8 和 12 核 配置 一 个 1024 位 总 线 宽 度 是 较为 合理 的 。 更 多 的 核 会 导 
致 网 络 性 能 饱和 ， 除 非 采用 更 宽 的 总 线 。 对 于 交错 总 线 架 构 ， 却 发 现 对 于 我 们 给 出 
的 一 级 缓存 命中 率 ，1024 位 总 线 宽度 足以 处 理 总 线 请 求 。 作 为 16 个 或 更 多 核 的 染 
构 和 负载 所 产生 的 更 高 总 线 要 求 ， 通 过 提高 一 级 缓存 的 未 命中 率 一 一 大 于 10%, 
可 使 交错 总 线 具 有 更 高 效率 。 一 个 交错 总 线 架 构 增 加 出 色 总 线 请 求 的 数量 ， 这 样 可 
以 寻 址 增加 总 线 请 求 数 。 


--Pico MP4 -«- Pico MP8 --Pico MP4-s- Pico MP8 —-Pico MP4-a- Pico MP8 
1600 -Pico MP12 160 —*- Pico MP12 100% -~ Pico MP12 
z 1400 F2 140 : 
= 1200 = 120 80% 
= 1000 x 100 TE 60% 
ga 800 ax 80 x 
ip 600 z 60 ax 40% 
% 400 x 40 400, 
we 200 3 20 is 
4 
7 dH 0% 
16 32 64 128 256 16 32 64 128 256 16 32 64 128 256 
总 线 宽 带 /bytes 总 线 宽 带 /bytes 总 线 宽 带 /bytes 


a) 网 络 带宽 与 总 线 宽 带 b) 总 体 总 线 负载 延迟 与 总 线 宽 度 c) 总 线 利用 率 与 总 线 宽度 


图 9-8 基于 SURGE 的 各 种 共享 总 线 架 构 ， 具 有 16KB 的 一 级 缓存 (每 个 1I 和 D) 的 
网 络 性 能 。 假 设 这 些 实验 的 CPU 时 钟 频率 为 500MHz。 随 着 处 理 器 数量 的 增加 ， 
总 线 结构 必须 能 够 处 理 高 带宽 


9.4.3 FE DRAM 架构 


9.4.3.1 片上 DRAM 的 作用 : 

基于 所 述 逻 辑 心 片面 积 估 计 ， 我 们 预计 对 于 4 核 、8 E 12 4% h PicoServers 
的 DRAM 芯片 尺寸 分 别 为 40mm- 、60mm” 和 80mm’, Æ 9-8 示 出 了 对 于 PicoServers 
可 供 选 择 的 片上 存储 器 。 例 如 ， 为 了 获得 总 大 小 为 256MB 的 DRAM， 我 们 假定 的 
DRAM 是 4 EE BS, TFR 3 层 的 服务 器 ， 我 们 采用 8 层 结 构 ， 因 为 它们 在 很 大 
程度 上 依赖 于 系统 内 存 的 大 小 。 对 于 目前 90nm 的 技术 ， 制 造 面积 为 80mm, WH 
内 存 256MB 的 4 层 芒 片 堆 释 是 可 行 的 。 虽 然 今 天 (4 ~ 16GB) 大 内 存量 的 物理 内 
存在 服务 需 群 中 是 普遍 的 ， 在 根据 服务 器 工作 负载 并 基于 与 数据 中 心 专家 讨论 所 
的 经 验 的 基础 上 ， 我 们 相信 服务 器 工作 负载 可 以 进行 调整 从 而 适合 于 具有 更 小 的 物 
理 内 存 较 小 的 系统 。 从 对 图 9-9 中 所 示 的 服务 器 应 用 程序 的 内 存 使 用 情况 的 测量 ， 
我 们 发 现 对 于 许多 的 服务 器 应 用 程序 (除了 TPC-C 和 TPC-H), 少量 系统 内 存 
( 约 64MB) 被 用 户 应 用 、 数 据 和 内 核 操 作 系 统 代码 占据 。 该 存储 器 的 余下 部 分 是 


第 9 3 PicoServer; 使 用 三 维 (3D) 堆 登 技术 建立 能 源 效 率 服 务 器 195 


表 9-8 改变 工艺 技术 对 应 的 投影 片上 DRAM 尺寸 。 面 积 估 计 是 基于 半导体 源 展望 
(Semiconductor SourceInsight) 2005/5! 生成 的 。 芯 片 80mm” 尺寸 类 似 于 90nm 的 奔腾 M 


4 层 每 层 40mm? DRAM 3E 64MB | | 96MB | 128MB | 192MB 
s B&B ome? DRAN TT 
(IAE Coma? DIANA oss 
LIU Sn? DRAN IEA T 
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可 用 m 可 用 
日 内 存 > 内 存 
口 缓存 x 口 缓存 
mc s m CH 
国内 核 /保留 ”长 g 内核 /保留 
Wn 
128MB 192MB 256MB 128MB 192MB 256MB 
a) SURGE b) SPECWeb99 
wy Hi B 可 用 
BA fF oA 
口 缓存 口 缓存 
国 已 用 m cH 
国内 核 /保留 国内 核 /保留 
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128MB 192MB 256MB 128MB 192MB 256MB 
c) Fenice d) dbench 
ib B 可 用 
BA tt 目 内 存 
日 缓存 口 缓存 
mc mcn 
国内 核 /保留 B 内 核 / 保 留 
MP4- MP8- MPI2- MP4- MP8- MPI2- 
128MB 192MB 256MB 128MB 192MB 256MB 
e) SPECWeb2005-bank : f) SPECWeb2005-ecommerce 


图 9-9 对 于 服务 器 基准 测试 的 内 存 使 用 量 (SURGE, SPECweb99, Fenice, 
dbench, SPECWeb2005, TPC-C); TPC-H 被 排除 在 外 ， 因 为 它 类 似 于 
TPC- C 的 内 存 使 用 情况 
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MP4- ` P4- MP8- MPI2- 
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g) SPECWeb2005-support h) TPC-C 
图 9-9 对 于 服务 器 基准 测试 的 内 存 使 用 量 (SURGE, SPECweb99, Fenice, 
dbench, SPECWeb2005, TPC-C); TPC- H 被 排除 在 外 ， 因 为 它 类 似 于 
TPC-C 的 内 存 使 用 情况 ( 续 ) 


空闲 的 或 用 作 磁 盘 缓 存 。 当 我 们 考虑 在 TPC- C 和 TPC- H 中 将 许多 用 户 存储 空间 分 
配 为 用 户 级 缓存 时 ， 对 于 TPC-C 和 TPC-H 来 说 ， 这 况 是 真 的。 考虑 到 256MB 可 以 
集成 在 4 层 芯 片上 这 一 事实 ， 片 上 的 大 部 分 DRAM 可 以 被 用 作 磁 盘 缓存 。 因 此 ， 
对 于 需要 小 /中 文件 集 的 应 用 程序 ， 一 片上 的 256MB 的 DRAM 足以 处 理 客户 机 
请 求 。 

对 于 大 型 的 文件 集 ， 有 有 几 种 方案 可 供 选 择 。 首 先 ， 我 们 可 以 通过 堆 释 另外 的 
DRAM 芯片 添加 额外 的 片上 DRAM， 如 8 层 的 情况 。 从 表 9-2 的 ITRS 路 线 图 可 以 
看 出 ,我们 假设 的 堆 倒 芯片 的 数量 是 保守 的 。 随 着 积极 的 芯片 堆 释 ， 我 们 可 以 添加 
更 多 的 芯片 堆 秋 来 提高 片上 DRAM 的 产能 ，ITRS 预测 在 未 来 2 ~4 年 将 超过 11 层 。 
这 是 可 能 的 ， 因 为 在 逻辑 层 我 们 的 功率 密度 是 相当 小 的 ， 即 小 于 5W/cm 。 另 一 种 
方法 是 增加 一 个 作为 磁盘 缓存 的 次 级 系统 存储 器 。 对 于 这 项 研究 ， 我 们 考虑 其 工作 
负载 ， 发 现 这 种 辅助 系统 存储 器 的 存 取 延迟 可 能 慢 至 数 百 微 秒 ， 而 不 会 影响 吞吐 
量 。 访 问 延 到 慢 至 数 百 微 秒 意味 着 消耗 更 少 活动 的 或 备用 的 电源 闪存 可 作为 次 要 系 
统 存 储 器 使 用 。 这 个 想法 一 直 在 被 探索 ”" 。 因 此 ， 对 于 需要 大 量 文件 集 的 工作 
负载 ， 我 们 可 以 建立 具有 快速 的 片上 DRAM 的 不 均匀 的 内 存 结 构 和 相对 较 慢 的 片 
外 辅助 系统 内 存 。 快 速 的 片上 DRAM 将 主要 包含 代码 、 数 据 和 一 个 小 的 磁盘 缓存 ， 
而 缓慢 的 系统 内 存 将 作为 一 个 大 的 磁盘 缓存 设备 。 

9.4.3.2 片上 DRAM 接口 

为 了 最 大 限度 地 提高 的 3D 堆 释 技术 带 来 的 好 人 处， 对 于 PicoServer 的 3D HER H 
上 的 DRAM, $3485 DRAM 接口 需要 被 修改 。 传 统 的 DDR2 DRAM 被 设计 的 同时 
假设 其 具有 少量 引 脚 数 ， 并 使 用 地 址 复 用 和 突 发 模式 传输 ， 以 弥补 有 限 数量 的 引 
脚 。 对 于 3D 堆 香 技术 ,没有 必要 使 用 熟悉 的 两 相 命 令 (RAS 然后 CAS) WFO 
和 地 址 复 有 用。 代替 的 是 ， 锁 存 和 混合 宗 地 址 或 数据 的 额外 的 逻辑 需要 可 以 被 移 除 。 
请 求 地 址 可 以 作为 一 个 单个 的 命令 被 发 送 而 数据 可 以 被 大 存储 器 中 读 出 来 。 此 外 ， 
传统 的 片 外 DRAM ， 作 为 由 多 个 DDR2 DRAM 芯片 组 成 的 DIMM 被 提供 。 对 于 每 个 
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请 求 ， 传 统 的 片 外 DIMM 接口 接 入 多 个 DDR2 DRAM 芯片 。 对 于 3D EH E RS 
DRAM， 每 个 请 求 只 有 一 个 子 块 需 要 被 访问 。 结 果 是 ，3D EA E DRAM 每 个 请 
求 比 外 DRAM 具有 更 低 的 功 耗 。 图 9- 10 示 出 了 不 用 多 路 复 用 的 读 操作 的 例子 。 特 
别 是 ， 它 表明 的 RAS 和 CAS 地址 请 求 被 组 合成 一 个 单一 的 地 址 请 求 。DRAM 厂商 
已 经 提供 了 不 需要 地 址 复 用 的 接口 ， 如 Micron 的 低 延 迟 DRAM”! 和 三 星 公 司 的 
NetDRAM'”] , ix gj zt Hr Ef DRAM 所 需 的 3D 接口 ， 仅 需 对 现 有 的 解决 方案 
进行 轻微 的 改变 即 可 被 实现 。 额 外 的 芯片 面积 可 以 通过 接口 的 简化 得 到 ， 并 可 用 于 
加 快 片 上 DRAM 存 取 。 通 过 牺牲 更 多 的 芯片 面积 到 片上 DRAM 的 子 块 ， 可 以 实现 
低 至 10ns 的 延迟 2 。 
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CPU ID ( IDO X IDI X D2 ) 
9-10 无 地 址 复 用 的 片上 DRAM 读 时 序 图 


9.4.3.3 片上 DRAM 刷新 对 吞吐 量 的 影响 

DRAM 的 周期 性 要 求 每 个 DRAM 单元 被 刷新 。 各 DRAM 单元 的 保持 时 间 通 常 
在 工业 标准 温度 被 定义 为 64ms， 而 在 较 热 的 环境 中 减 小 到 32ms。 根 据 9.4.5 节 提 
出 的 热 分 析 ， 在 行业 标准 温度 限制 下 ， 我 们 的 最 高 结 温 是 好 的 。 因 此 ， 我 们 假设 每 
个 单元 刷新 周期 为 64ms。 然 而 ， 刷 新 电路 通常 由 多 个 DRAM 单元 阵列 间 共 享 ， 以“ 
减少 必 片 面积 开销 ， 从 而 降低 平均 DRAM 刷新 间隔 到 约 7. 8125km， 这 大 约 需要 
200ns 来 完成 。 粗 略 地 说 ， 这 意味 着 在 每 万 CPU 时 钟 周期 中 ， 一 个 DRAM 块 不 能 
锌 访问 持续 几 百 个 CPU 时 钟 周 期 的 时 间 。 为 了 测量 刷新 周期 的 影响 ， 我 们 模拟 在 
M5 中 DRAM 的 刷新 活动 并 观察 CPI 的 开销 。 片 上 的 DRAM 的 访问 频率 和 所 观察 到 
的 一 级 缓 仓 未 命中 量 直接 相关 。 我 们 发 现 对 于 5% 的 一 级 缓存 未 命中 率 和 在 
500MHz 主 频 下 的 12 4K ( PicoMP12-500MHz 运行 SURGE , ， 将 导致 0.03 CPI 刷新 
过 载 。 这 是 因为 许多 一 级 缓存 未 命中 与 刷新 指令 不 一 致 ， 使 得 其 被 执行 时 会 导致 只 
有 最 小 的 性 能 损失 。 


O 在 这 个 研究 中 ， 我 们 用 一 种 保守 的 方法 并 且 不 考虑 由 于 额外 的 次 级 块 造成 的 延 时 减少 。 我 们 仅 应 用 
由 于 移 除 驱动 片 外 信和 号 而 造成 的 延 时 优化 。 
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9.4.4 一 个 CMP 架构 的 多 NIC 需求 


大 型 网 络 管 服务 器 一 个 常见 的 问题 是 可 以 处 理 每 秒 到 达 几 十 万 包 的 突 发 行为 。 
中 断 聚 结 是 处 理 这 个 问题 的 一 种 方法 。 它 的 工作 原理 是 ， 当 一 个 非 关 键 事件 发 生 时 
启动 一 个 定时 器 。 在 计时 器 到 期 之 前 发 生 的 任何 其 他 非 关 键 事件 被 合并 为 一 个 中 
断 ， 以 减少 中 断 总 数 。 即 使 有 这 样 的 技术 ,但 是 通过 相对 低频 率 的 处 理 右 接收 中 断 
的 数量 ， 如 一 个 PicoServer 核 ， 也 会 超越 它 的 限制 。 在 仿真 中 ， 我 们 通过 多 个 NIC 
解决 这 个 困难 ， 每 个 NIC 对 应 于 处 理 器 的 一 个 子 集 。 对 于 具有 一 个 NIC 和 片上 的 
DRAM 的 8 芯片 多 处 理 器 架构 ， 我 们 发 现 由 于 一 个 处 理 器 不 能 由 自身 管理 ， 使 得 每 
个 处 理 器 的 平均 利用 率 在 6096 以 下 。 为 了 充分 利用 我 们 的 多 处 理 器 架构 中 的 每 个 
处 理 器 ， 每 两 个 处 理 器 插入 一 个 NIC。 例 如 ， 具 有 4 个 处 理 需 的 结构 将 有 两 个 网 络 
接口 控制 器 (NIC) ， 一 个 8 处 理 器 架构 将 有 4 个 网 络 接 口 控制 项 NIC ， 依 此 类 推 。 

尽管 我 们 的 模拟 环境 不 支持 它 ， 但 更 理想 的 解决 方案 是 使 用 一 个 更 智能 的 单个 
的 NIC， 可 以 按 路 线 发 送 中 断 到 多 个 CPU ， 每 个 具有 独立 的 DMA 描述 器 和 TX/RX 
队列 。 这 可 能 是 一 个 无 论 是 具有 多 接口 的 IP 地 址 还 是 利用 智能 方法 负载 平衡 数据 
包 到 多 个 处 理 器 的 NIC。 这 样 的 NIC 需要 在 会 话 级 跟踪 网 络 协议 状态 。 之 前 已 经 有 
NIC 智能 负载 平衡 的 研究 ， 以 实现 在 平台 上 的 最 佳 的 吞吐 量 '”: 。 在 更 高 层次 的 网 
络 “ ，TCP 拼接 和 切换 也 是 智能 负载 均衡 很 好 的 例子 。 


9.4.5 在 三 维 堆 合 中 的 热 考 虑 


3D 堆 人 技术 的 一 个 潜在 的 问题 是 热量 包含 的 问题 。 为 了 解决 这 个 问题 ， 我 们 
WA T ZEHE E PicoServer 架构 的 热 影 响 。 因 为 不 能 直接 测量 一 个 真正 的 3D ME 
从 平台 上 的 温度 ， 我 们 使 用 Hotspot 3. 17* 中 的 网 格 模型 来 建立 3D HERB, HF 
FlowTherm 和 ANSYS 等 有 限 元 热 仿真 软件 具有 有 限 的 3D 堆 到 工艺 尺寸 的 资料 ， 因 
此 我 们 没有 在 研究 中 考虑 。 不 过 ， 热 点 的 RC 等 效 热流 模型 足以 显示 其 趋势 和 3D 
堆 番 潜在 的 问题 。 因 为 我 们 的 工作 旨 在 解决 3D 堆 释 技术 是 否 可 在 服务 器 领域 展现 
其 优势 ， 而 不 是 描述 传 热 的 细节 ， 因 此 我 们 只 提出 传 热 的 一 般 趋势 。 

从 表 9-9 中 可 以 看 出 ,在 3D 堆 释 技术 中 主要 的 热 的 容纳 的 贡献 者 是 界面 材料 
(Si0,) 和 硅 与 空气 之 间 的 自由 空气 的 界面 。 硅 和 金属 能 更 有 效 传 热 。 我 们 首先 通 
过 不 同 的 条 件 配 置 PicoServer 架构 : 变化 堆 秋 芯片 的 量 ; @ 变 化 堆 秋 中 的 主 发 热 
必 片 块 和 逻辑 必 片 块 的 位 置 ; 变化 通常 在 堆 琵 芯片 中 间 的 Si0, 绝缘 层 的 厚度 。 
我 们 的 基本 结构 是 假设 在 27°C 的 室温 下 直接 连接 到 散热 器 的 逻辑 芯片 。Hotspot 需 
要 材料 和 功率 密度 信息 来 计算 稳 态 温度 。 因 此 我 们 从 本 章 参 考 文献 [37, 44, 57] 
提取 三 维 堆 春 特性 ， 进 而 基于 面积 和 功率 为 每 个 组 件 在 组 件 级 别 分 配 功率 密度 。 平 
台 级 处 理 器 、 外 设 、 全 局 总 线 互 连 等 各 组 分 被 建 模 。 生 成 的 PicoServer 架构 下 的 最 
大 结 温 如 图 9-11 所 示 。 
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39-9 对 于 常见 材料 的 硅 器 件 热 参数 





热 导 率 /( W/m : K) 热 沉 /(J/m” + K) 
Si 148 1.75 x 10° 
Cu 385 3. 86 x 10° 
25% 的 空气 0. 026 1.2 x 10? 
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图 9-11 Hotspot 灵敏 的 实验 中 最 大 结 点 温度 : a) 不 同 层 的 数目 ; b) 不 同 的 3D 界面 的 厚度 ; 
c) 改变 逻辑 芯片 的 位 置 ; d) 最 大 结 温 对 散热 器 质量 分 析 。 假 设 在 S00MHz 的 时 钟 频率 下 计算 
功率 密度 。 我 们 改变 基于 释 层 数量 的 片上 存储 器 大 小 。 且 假设 层 上 无 片上 存储 器 


图 9-11a 显示 了 堆 倒 层 数 目的 灵敏 度 。 我 们 发 现 每 增加 一 层 ， 最 高 结 温 增加 
2 ~3 。 有 趣 的 是 ， 当 我 们 增加 芯片 面积 ， 最 大 结 点 温度 降低 。 我 们 认为 ， 这 是 由 
于 我 们 的 布局 规划 和 封装 的 假设 。 这 需要 进一步 分 析 ， 有 待 我 们 将 来 研究 。 
图 9-11b 显示 出 三 维 堆 秋 电介质 界面 的 敏感 性 。 我 们 比较 了 SiO, 厚度 (界面 材料 ) 
为 10km 和 80pm 的 情况 。 在 本 章 参 考 文献 [17, 37, 44, 57] 我 们 发 现 对 于 3D 
准 登 界面 材料 的 最 大 厚度 不 超过 10pm。 选 择 80pum 的 点 ， 以 显示 随 着 厚度 大 幅 增 
加 热 容 的 影响 。 这 导致 结 温 增 加 6Y 。 而 值得 注意 的 是 ， 材 料 厚度 的 改变 没有 带 来 
显著 的 变化 。 由 于 片上 总 线 的 频率 相对 较 慢 ， 我 们 假定 电介质 界面 厚度 增加 没有 增 
加 总 线 延 时 时 间 。 图 9-11c 显示 了 堆栈 中 位 置 的 灵敏 度 一 一 顶层 位 置 或 底层 位 置 。 
我 们 发 现 主 发 热 芯片 对 散热 器 的 位 置 不 敏感 。 
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我 们 还 对 散热 片 质量 的 影响 进行 分 析 。 通 过 改变 散热 器 的 配置 ， 模 拟 了 一 个 高 
成 本 散热 器 (散热 器 1) 和 一 个 低 成 本 散热 器 (散热 器 2)。 图 9-11d 显示 了 3D HE 
到 技术 对 散热 器 质量 的 影响 。 它 清楚 地 表明 ， 一 个 低 成 本 的 散热 器 可 以 在 三 维 堆肥 
技术 平台 上 使 用 。 上 述 结果 表明 ， 热 容纳 是 PicoServer 架构 的 主要 限制 。 由 于 功率 
密度 相对 较 低 ， 不 超过 5W/cm ， 因 此 ， 最 大 结 温度 不 超过 50%C 。 三 维 通 孔 也 可 以 
作为 热 通道 ， 这 是 我 们 在 分 析 中 没有 考虑 到 的 ， 然 而 其 改善 情况 是 可 以 预期 的 。 一 
个 智能 布局 将 会 分 配 发 热 层 (处 理 器 层 ) 和 热 层 相 邻 ， 使 得 大 多 数 的 热 被 转移 到 
散热 器 。 本 章 参 考 文献 [19, 25] 的 研究 分 别 支 持 了 我 们 的 结论 。 


9.4.6 将 闪存 集成 到 PicoServer 的 影响 


本 节 考 察 直 接连 接 NAND 闪存 需 件 到 PicoServer 架构 的 结构 的 影响 ， 同 时 它 也 
是 对 集成 到 PicoServer 3D 堆 释 闪存 器 件 情况 的 研究 。 由 于 闪存 密度 的 迅速 提高 ， 
闪存 正在 成 为 一 个 有 吸引 力 的 集成 到 服务 器 平台 的 存储 设备 。 内 存在 服务 顺 领 域 有 
两 个 主要 的 使 用 模式 ， 即 固态 盘 (SSD) 和 存储 装置 。 人 们 普遍 认为 ， 闪 存 集 成 提 
高 了 整体 服务 器 的 吞吐 量 ， 而 使 系统 内 存 和 磁盘 驱动 的 功率 更 低 。 例 如 ， 当 闪存 用 
作 存 储 装 置 并 被 分 配 作 为 磁盘 缓存 时 ， 较 高 密度 Flash 允许 我 们 实现 较 高 的 缓存 命 
中 率 ， 这 比 DRAM 的 功 耗 更 低 。 较 高 的 缓存 命中 率 降 低 存 取 磁 盘 ， 这 使 得 系统 性 
能 改进 和 磁盘 功率 得 到 减少 。 

然而 ,集成 内 存 到 服务 器 平台 并 不 简单 。 成 功 整合 内 存 到 一 个 服务 器 平台 有 两 
大 挑战 。 中 提高 传输 延迟 到 Flash; 人 @O) 提 供 足 够 的 内 存 (RAM) ， 以 有 效 地 管理 闪 
存 。 与 典型 的 存储 器 装置 相 比 较 ， 例 如 DRAM, NAND 闪存 显示 较 高 的 总 访问 延迟 
( 见 表 9-10)， 这 主要 由 于 高 传输 延 时 ( 低 带 宽 罕 8 位 或 16 位 的 接口 ) ， 用 于 典型 
架子 外 的 闪存 设备 。 虽 然 对 于 SLC NAND 闪存 页 面 ， 到 内 部 缓冲 区 的 读 取 延迟 大 约 
是 25ps， 但 对 于 NAND 闪存 芯片 读 取 几 个 KB 的 传输 延迟 来 说 是 相当 高 的 。 减 少 
传输 延迟 的 方法 之 一 是 利用 3D 堆 释 。 它 能 够 使 用 更 宽 的 总 线 每 周期 访问 更 大 量 的 
数据 ， 从 而 减少 传输 延迟 。 为 了 更 多 的 节约 能 源 ， 可 以 减少 等 待 时 间 人 允许 关键 数据 
从 DRAM 移 到 闪存 。 


表 9-10 ITRS 2007 年 后 路 线 图 中 的 内 存 发 展 趋势 


xs 
NAND Flash- SLC®/( pm? /bit) 0. 0021 
NAND Flash- MLC? /( pm?/bit) 0. 0005 
DRAM MEE un? b) 00038 
| 1E+05/ | 1E+05/ | 1E+06/ 1E +06/ 
Flash 写 / 擦 周期 一 一 SLC/MLC® 
1E +04 1E +04 1E +04 1E +04 1E +04 
闪存 数据 保持 /年 20 
(D SLC 一 一 单 级 单元 ，MLC 一 一 多 级 单元 。 
D 从 先前 估计 的 工作 中 写 / 擦 除 周期 MLC WEO, 
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此 外 ， 被 需要 来 有 效 管理 NAND 闪存 子 系统 的 内 存 (RAM) 容量 与 其 容量 成 
比例 。 虽 然 NAND 闪存 仍然 可 以 用 少量 的 存储 器 管理 ， 但 这 些 类 型 的 子 系统 只 显 
示 有 限 的 读 / 写 带宽 并 加 速 了 闪存 损耗 。 为 了 满足 存储 器 (RAM) 提供 高 带宽 、 高 
寿命 和 高 容量 的 NAND 闪存 子 系统 的 要 求 ，DRAM 通常 集成 到 存储 的 闪存 管理 代 
码 和 数据 的 NAND 闪存 储 器 子 系统 。 然 而 ， 实 现在 NAND 闪存 子 系统 所 需要 专用 
DRAM 装置 的 成 本 是 可 估计 的 ， 低 效 的 。 通 过 巩固 整个 服务 器 平台 的 代码 和 数据 到 

一 个 单一 的 DRAM 模块 可 节省 成 本 和 提高 效率 。3D 堆 释 系统 集成 的 益处 在 于 允许 
闪存 管理 代码 ( 见 图 9-12) 和 数据 驻 留 在 与 系统 中 的 其 他 部 件 共用 的 DRAM 中 。 








SSD 子 系统 
a) b) 


图 9-12 三 维 堆 秋 内 存 架构 用 于 : a) 固态 使 用 模型 ; b) 存储 器 装置 的 使 用 模式 


二 了 Flash 存储器 装置 子 系统 


对 于 固态 盘 (SSD) 使 用 模式 ，3D 堆 苹 可 以 用 作 实 现 节 能 的 片上 接口 的 方式 ， 
这 种 接口 可 以 取代 传统 的 硬盘 驱动 器 接口 。 图 9-12a 显示 了 这 种 方法 。 使 用 与 CPU 
核 相同 的 工艺 技术 ,将 SSD 控制 器 逻辑 放置 在 芯片 上 。 闪 存 管 理 的 低层 细节 ( 错 
误 检 查 、 损 耗 平 衡 和 缓冲 管理 ) 被 从 处 理 器 中 隔离 ， 这样 提 供 了 简单 的 接口 。 对 
于 片上 集成 DRAM 来 说 ， 则 很 容易 满足 其 闪存 管理 的 内 存 要 求 。 一 个 三 维 堆 秋 的 
SSD 可 以 提供 : 中 较 低 的 功率 ; @) 较 高 的 随机 访问 吞吐 量 ; @@ 更 低 的 延迟 ; OKE 
盘 更 好 物理 稳健 性 。 固 态 便 盘 除了 包括 闪存 ， 还 包括 一 个 控制 器 和 缓存 RAM, 

在 一 个 采用 3D EARKI PicoServer 中 ， 硬 件 中 留 有 一 个 固态 硬盘 接口 的 可 
以 让 驱动 器 无 须 修改 即 可 进行 工作 。 外 部 SSD 的 其 他 好 处 包括 具有 更 高 带宽 的 接 
口 ， 具 有 直接 进入 主 存储 器 或 直接 进入 处 理 器 缓存 的 数据 传送 选项 ， 并 具有 人 允许 
PicoServer 核 使 用 应 用 专用 算法 来 控制 内 存 的 能 力 。 由 于 各 装置 “的 不 同 特征 ， 使 
用 SSD 和 第 规 的 基于 磁盘 的 存储 装置 组 合 ， 可 以 提供 更 高 的 性 能 。 对 高 带宽 、 高 
密度 的 存储 来 说 ， 硬 盘 是 最 有 效 的 ， 同 时 Flash 提供 了 更 低 的 延迟 (尤其 是 当 读 的 
时 候 ) 和 更 高 的 IOP (每 秒 读 写 数 ) 。 为 整体 的 性 能 提高 ， 利 用 算法 动态 地 放置 读 
控制 数据 在 SSD 中 ， 同 时 写 控制 的 数据 被 移动 到 HDD, 

对 于 存储 设备 的 使 用 模式 ， 已 经 出 现 了 若干 建议 ， 这 些 建议 涉及 广泛 应 用 的 ， 


EDA、 设 计 和 微 体 系 结 构 





202 3D 集成 电路 设计 





包括 磁盘 缓冲 区 [2] 、 磁 盘 缓存 '2” 2321 和 代码 /数据 存储 “” 。 图 9-12b 显示 了 其 物 
理 结 构 是 为 何 与 三 维 堆 释 的 SSD 的 物理 结构 十 分 相似 ， 除 了 被 提供 给 处 理 硕 核心 
的 闪存 之 间 低 级 别 的 数据 传输 控制 外 。 这 种 方法 增加 了 软件 的 复杂 性 ， 但 是 实现 了 
比 固态 硬盘 (SSD) 使 用 模式 更 高 的 带宽 和 更 有 效 的 管理 。 这 是 因为 Flash 管理 是 
由 比 闪 存 控制 器 具有 更 多 的 计算 能 力 的 处 理 器 执行 。 当 闪存 用 作 磁 盘 缓 冲 时 ， 它 被 
FAVE DRAM 和 磁盘 之 间 的 暂 存 缓冲 器 。 当 数据 从 Flash 缓冲 器 读 出 时 ， 我 们 可 以 通 
过 关闭 磁盘 获得 更 长 的 时 间 来 实现 节能 。 该 方案 还 能 减少 系统 中 DRAM 的 数量 ， 
并 节省 系统 能 量 的 30% ~40% 。 同 样 的 ， 通 过 扩展 基于 DRAM 的 磁盘 缓存 的 标准 ， 
闪存 磁盘 缓存 在 操作 系统 是 很 容易 实现 的 。 数 据 集中 型 服务 器 应 用 程序 ， 如 Web 
服务 器 ， 需 要 大 量 的 磁盘 缓存 。 通 过 使 用 Flash 取代 部 分 DRAM， 可 以 降低 空闲 功 
iE, 可 以 有 更 多 的 总 缓存 容量 (由 于 较 高 的 闪存 密度 ) ， 使 得 性 能 得 到 提升 ， 从 而 
节约 能 源 。 三 维 堆 释 技术 通过 更 快速 地 满足 缓存 数据 的 请 求 ， 而 增强 了 该 方案 。 绥 
存 的 网 页 从 第 二 Flash 存储 迁移 到 DRAM 的 主要 页 面 缓存 ， 这 样 宽 的 3D HEBDO 
连接 可 以 更 快 的 、 用 更 低 的 总 线 能 量 完成 这 些 数 据 传 输 。 存 储 设备 的 使 用 模式 还 有 
其 他 的 益处 。 使 用 小 型 增强 型 的 微 架 构 Flash 2 ill at, 3875 A NAND 闪存 被 加 载 并 
驻 留 在 DRAM 中 的 代码 可 能 直接 驻 留 在 NAND 中 。 在 本 章 参 考 文献 [42] 中 描述 
的 下 一 个 码 块 预测 技术 和 在 本 章 参 考 文献 [49] 中 概述 的 “基于 需求 页 ”的 体系 
结构 已 经 表明 其 潜在 益处 。 通 过 降低 能 源 成 本 和 延迟 ， 同 时 交换 在 DRAM 和 Flash 
之 间 的 页 面 ， 三 维 堆 秋 技 术 可 以 帮助 这 个 方案 实施 。 对 于 相同 的 DRAM 和 闪存 容 
量 ， 总 能 量 将 进一步 降低 ， 因 为 程序 执行 得 更 迅速 ， 并 且 使 得 在 DRAM 中 和 其 他 
系统 部 件 ， 如 供电 电源 中 ， 消 耗 较 少 的 空闲 能 量 。 

根据 本 章 参考 文献 [29, 30, 31] 的 研究 结果 ， 我 们 提出 三 维 堆 蔡 Flash 作为 
存储 器 设 备 集成 到 一 个 PicoServer 架构 的 例子 。 

我 们 首先 进行 运行 的 服务 器 工作 负载 操作 系统 管理 磁盘 缓存 行为 的 分 析 。 
图 9-13 显示 在 Web 服务 器 系统 存储 器 的 磁盘 缓存 访问 行为 。 这 表明 ， 服 务 器 工作 
负载 访问 文件 的 行为 是 一 种 短 尾 分 布 行为 ， 即 其 中 磁盘 缓存 的 很 大 一 部 分 不 经 常 访 
问 ， 只 小 部 分 磁盘 缓存 被 频繁 访问 。 在 访问 磁盘 缓存 中 不 经 常 访问 的 文件 时 ， 将 导 
致 变化 的 访问 延迟 。 图 9-14 显示 了 这 种 情况 下 的 服务 器 吞吐 量 。 对 于 不 同 的 访问 
延迟 ， 我 们 可 以 观察 到 吞吐 量 常数 在 十 到 几 百 微 秒 之 间 。 这 是 因为 我 们 可 以 通过 服 
务 顺 工作 负载 的 自然 多 线程 性 隐藏 不 经 常 访问 的 磁盘 缓存 文件 访问 延迟 的 时 长 。 利 
用 这 一 特性 的 一 种 方法 是 闪存 集成 为 第 二 级 磁盘 缓存 ， 而 代替 磁盘 分 配 缓存 中 的 大 
量 的 DRAM 分 配 。 

因为 NAND 闪存 比 DRAM 消耗 少 得 多 的 功率 并 具有 比 DRAM 大 4 倍 的 密度 
( 见 表 9-10 和 表 9-11 所 示 ) ， 在 服务 器 存储 器 系统 中 集成 内 存 被 认为 更 节能 且 有 更 
大 的 系统 存储 容量 。 更 大 的 磁盘 缓存 可 以 减少 磁盘 缓存 的 未 命中 率 ， 让 硬盘 停 转 时 
间 更 长 。 如 我 们 在 表 9-11 中 所 示 ， 在 空闲 模式 下 硬盘 消耗 了 一 定 的 电量 。 
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图 9-13 a) 在 服务 器 端 对 于 客户 端 请 求 的 磁盘 高 速 缓冲 存储 器 存 取 行 为 ， 分 别 对 于 
4 核 、8 核 、12 PicoServer 配置 和 不 同 的 DRAM 大 小 ; b) 客户 端 请 求 行为 的 典型 
的 累积 分 布 函 数 。 请 求 的 90% 对 应 于 20% 的 Web 内容 文件 
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图 9-14 变化 到 达 二 级 磁盘 缓存 时 的 访问 延迟 ,测量 的 全 系统 仿真 网 络 带 宽 。 假 设 一 个 有 1GB 
更 慢 速 存储 器 的 128MB 的 DRAM, 分 别 测 得 配置 为 4 核 8 HK. 12 核 PicoServer 500MHz 
的 带宽 。 二 级 磁盘 缓存 可 以 容忍 几 百 微 秒 的 访问 延迟 ， 同 时 提供 平等 的 网 络 带宽 


表 9-11 DRAM, NAND-basedSLC/MLC 闪存 和 硬盘 的 性 能 、 功 耗 和 成 本 


1Gb NAND-SLC 6uW 25 us 1. 5ms 
4Gb NAND- MLC N/A N/A 50s 3. 3ms 


(D DRAM 待机 功率 处 于 活动 模式 。 待 机 功 耗 在 省 电 模 式 下 为 18mW。 
(2) 750GB 硬盘 驱动 器 的 数据 [8] 。 


集成 内 存 到 服务 器 所 取得 的 好 处 也 可 以 被 应 用 到 PicoServer 中 。 图 9-15 和 
图 9-16 显示 了 使 用 3D HEB RAE MIN FF] PicoServer 的 两 种 配置 。 图 9-15a 显示 
了 第 一 种 配置 ， 在 图 9- 16a 中 将 闪存 作为 分 立 元 件 集成 。 采 用 3D MEER ER MES 8 
层 闪 存 层 产生 一 个 分 离 的 Flash 芯片 一 分 立 元 件 。 这 种 闪存 芯片 通过 PCB 板 布 线 连 
接 到 PicoServer。 一 个 能 够 每 秒 提供 数 百 兆 字 节 的 传输 的 片 外 IO 接口 (通常 是 
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PCI Express 高 速 ) 应 用 在 PicoServer 和 分 立 的 闪存 芯片 之 间 。 闪 存 通 过 在 有 序 
PicoServer 内 核 上 运行 的 操作 系统 管理 (耗损 均衡 管理 和 Flash 命令 接口 管理 )。 分 
立 的 闪存 芯片 的 存储 容量 不 受 PicoServer 芯片 面积 的 限制 ， 而 且 由 于 Flash 的 功 耗 
EIR, MYRE LL PicoServer 更 多 的 芯片 。 因 此 ， 数 十 GB 分 立 的 闪存 必 片 可 
以 集成 到 PicoServer 架构 中 。 具 有 大 型 的 文件 集 和 适度 的 LAO 带宽 需求 的 服务 需 负 
载 将 最 大 的 受益 于 这 种 配置 。 这 样 的 分 立 闪 存世 片 配 置 潜在 缺陷 是 PCIE 接口 的 空 
闲 功 耗 。 在 PCIE L/O 引 脚 处 ， 即 使 当 其 不 活跃 时 ， 空 闲 电 源 管理 仍 必 须 进 行 。 
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a) b) 


图 9-15 a) 8 BÆK Flash 发 片 作 为 分 立 的 部 件 (通过 PCB 布局 ) 集成 到 
PicoServer "F; b) 4 ZEE Flash 芯片 直接 集成 到 PicoServer 中 


DRAM || NIC || Fr Ft | [Express 
100sSMB|| ! Gbit/s|] 接 接口 





a) b) 


图 9-16 a) 8 JE HEE AY Flash 芯片 作为 分 立 的 部 件 (通过 PCB 布局 ) 集成 到 PicoServer 
中 的 高 级 框图 ; b) 4 层 堆 到 的 Flash 芯片 直接 集成 到 PicoServer 中 的 高 级 框图 
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图 9-15b 和 图 9-16b 所 示 的 第 二 配置 直接 集成 Flash 到 PicoServer (在 前 面 的 章 
节 中 讨论 ) 。 它 使 用 三 维 堆 蚕 技术 在 DRAM 45H LARS 4 层 闪 存世 片 。 闪 存 必 
片 通过 宽 的 共享 总 线 连接 到 PicoServer 中 的 其 他 组 件 。 宽 片上 共享 总 线 接口 具有 每 
秒 数 十 倍 的 千 兆 字 节 带 宽 。Flash 还 可 以 成 功 进行 损耗 均衡 管理 和 闪存 指令 接口 管 
理 ， 这 是 在 有 序 PicoServer 内 核 中 运行 操作 系统 实现 的 。 闪 存 容量 受 在 PicoServer 
片上 的 DRAM 和 逻辑 元 件 的 芯片 面积 限制 。 因 此 ,闪存 容量 预计 有 几 千 兆 字 市 的 
大 小 。 预 计 这 种 需要 小 文件 集 和 高 VO 带宽 的 服务 器 工作 负载 将 受益 于 这 种 配置 。 


9.5 结果 


为 了 评估 PicoServer 架构 ， 两 个 重要 的 指标 是 否 吐 量 和 功 耗 。 否 吐 量 可 被 测量 
为 网 络 带宽 或 每 秒 传送 量 。 由 于 它 是 一 种 多 少 个 请 求 被 服务 的 量度 ， 因 此 是 衡量 
整个 系统 的 性 能 的 良好 指标 。 在 本 节 中 ， 我们 首先 将 不 同 配置 的 PicoServer 和 其 
他 架构 在 吞吐 量 方面 进行 对 比 ， 接 着 对 功率 方面 进行 对 比 。 由 于 PicoServer 尚未 
实现 ， 我 们 使 用 分 析 模 型 和 发 表 的 数据 结合 的 方式 对 关于 各 种 部 件 的 功率 消耗 进 
行 保 守 估 计 。 最 后 ， 提 出 了 一 种 显示 PicoServer 架构 能 源 效 率 的 方式 一 一 帕 累 托 
图 (pareto) 。 


9.5.1 整体 表现 


图 9-17 和 图 9-18 显示 出 一 些 1 ~3 层 负载 运行 的 吞吐 量 。 每 栏 在 3 个 方面 显 
示 其 对 吞吐 量 的 贡献 : 由 没 有 二 级 缓存 和 一 个 窗 (641v) 总 线 的 基准 ; @ 有 二 级 
缓存 基准 ; (3 没有 二 级 缓存 和 3D DRAM 堆 释 的 宽 总 线 基准 。 因 此 ， 我 们 可 以 比较 
有 无 二 级 缓存 的 3D 堆肥 的 技术 的 影响 。 图 9-17 显示 了 单独 使 用 3D HEBER 
的 整体 性 能 等 价 于 或 超过 使 用 二 级 缓存 。 一 个 固定 核 数 的 公平 比较 ， 例 如 ， 可 能 是 
将 一 个 Pico MP4-1000MHz 与 传统 的 没有 3D-1000MHz 的 MP4 CMP 的 比较 。 一 般 情 
况 下 ， 产 生 适 度 的 高 缓存 未 命中 率 (SURGE、SPECweb99、SPECweb2005 和 
dbench) 的 工作 负载 ， 显 示 了 采用 3D 堆 礁 技术 可 以 使 其 得 到 显著 改善 。 因 为 涉及 
较 低 的 缓存 未 命中 率 的 视频 流 的 计算 ，Fenice 没有 得 到 显著 的 改善 。 有 趣 的 是 ,第 
二 层 基准 电路 (SPECweb2005 的 脚本 语言 ) ， 和 已 经 针对 单线 程 性 能 而 设计 的 004 
配置 相 比 表 现 良 好 。 

对 于 004 配置 ， 由 于 在 单 处 理 器 二 级 缓存 的 延迟 可 能 比 到 一 个 大 容量 DRAM 
的 存 取 延迟 小 ， 使 得 对 于 仅 具 有 高 带宽 3D AERIS Fr E DRAM 不 太 具 有 吸引 力 ， 因 
此 我 们 结合 具有 二 级 缓存 和 3D 堆 秋 的 影响 。 我 们 发 现 对 于 004 配置 ，3D HB 
高 了 其 15% 的 性 能 。 当 我 们 比较 一 个 采用 无 3D MER IIS] PicoServer 架构 的 004 结构 
时 ， 一 个 操作 在 SOOMHz 下 的 PicoServer MP8 表现 比 用 具有 小 的 16KB 和 256KB 的 
一 级 和 二 级 缓存 的 4CHz 004 的 处 理 器 更 好 。 对 于 类 似 的 芯片 面积 比较 ， 由 于 对 于 
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图 9-17 变化 处 理 需 频率 和 处 理 器 类 型 时 所 测量 的 吞吐 量 。 对 于 PicoServer CMP 我 们 固定 的 芯片 
上 的 数据 总 线 宽 度 为 1024 位 ， 总 线 频率 250MHz。 对 于 一 个 类 似 奔 腾 4 的 配置 ， 我 们 把 NIC 
放 到 PCI 总 线 上 并 假定 存储 器 总 线 频率 为 400MHz。 对 于 一 个 没有 采用 3D 堆 释 技术 的 MP4、 

MP8 配置 ， 为 了 公平 起 见 ， 我 们 假设 不 支持 多 线程 和 2MB 大 小 的 二 级 缓存 。 假 设 外 部 存储 器 
总 线 频率 为 230MHz (SPECweb99, Fenice, SPECweb2005- bank 块 ) 
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图 9-18 MAEAEA EAMA EASA ( SPECweb2005- ecommerce, dbench, 
TPC-C) 时 所 测量 的 吞吐 量 。 与 我 们 在 图 9- 17 中 使 用 相同 的 假设 


128KB 的 一 级 缓存 和 2MB 的 二 级 缓存 来 说 ， 大 型 004 需要 额外 的 芯片 面积 ， 因 此 
我 们 认为 PicoServer MP8 和 小 的 004 架构 的 比较 是 公平 的 比较 。 
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如 果 我 们 假设 在 传统 的 没有 采用 3D HEBEL AR AY CMP MP4/8 中 二 级 缓存 所 占 
据 的 区 域 被 蔡 换 为 男 外 的 处 理 核 一 一 这 是 使 用 三 维 堆 释 技术 带 来 的 一 个 好 处 ， 对 于 
类 似 面积 的 芯片 吞吐 量 的 比较 ， 可 以 基于 以 下 系统 进行 : 了 一 个 Pico MP8-500MHz 
的 MP4 和 没有 3D- 1000MHz 的 常规 的 MP4 比较 ; @) 一 Pico MP12- 500MHz 的 MP8 
和 没有 3D- 1000MHz 的 常规 的 MP8 比较 (对 于 Fenice 和 一 个 Pico MP12-750MHz) ù, 
研究 结果 表明 ， 平均 而 言 ， 额 外 的 处 理 元 件 ， 加 上 减 半 内 核 时 钟 频 率 可 以 提高 天 
吐 量 并 显著 节省 电源 ， 见 9. 5.2 节 。 然 而 对 于 商务 计算 型 受 限 负载 像 Fenice、 
SPECWeb2005- 银行 和 SPECWeb2005- 电子 商务 ，Pico MP12- 500MHz 并 不 比 一 个 没 
有 3D-1000MHz 的 常规 的 MP8 表现 得 更 好 。 对 于 SPECWeb2005- 银 行 和 电子 商务 ， 
引进 一 个 2MB 大 小 的 二 级 缓存 极 大 减少 了 缓存 未 命中 率 ， 降 低 了 由 于 增加 更 多 
的 内 核 带 来 的 好 处 ， 同 时 降低 了 内 核 时 钟 频率 数量 。 由 于 LO 调度 ， 对 TPC-C, 
PicoMP12-500MHz 也 表现 得 不 好 。 然 而 ,我们 预期 对 高 有 TPC-C 优化 的 VO 调 
度 算法 的 操作 系统 内 核 ，Pico MP12-500MHz 能 表现 得 更 好 。 我 们 用 于 添加 额外 
的 核心 面积 估计 相当 保守 ， 同 时 我 们 建议 添加 多 个 核 ， 使 吞吐 量 有 进一步 的 
改善 。 


9.5.2 总 体 功 率 


处 理 需 的 功 耗 仍 在 PicoServer 架构 整体 功 耗 中 占 主导 地 位 。 图 9-19 显示 了 对 于 
服务 器 应 用 程序 运行 且 基 于 我 们 的 功 耗 估计 技术 的 平均 功 耗 。 我 们 发 现 500MHz f 
心 时 钟 频 率 的 PicoServer， 在 90nm 工艺 技术 下 ， 估 计 要 消耗 2 ~3W。 大 多 的 总 功 
耗 是 由 简单 的 系列 循环 处 理 器 消耗 。 当 处 理 器 数目 增加 时 ， 网 络 接口 控制 器 也 增 
加 ， 因 此 网 络 接口 控制 器 (NIC) 的 功率 也 是 总 功率 的 主要 部 分 。 然 而 ， 如 第 
9.4.4 节 所 述 ， 为 此 架构 设计 的 一 个 智能 网 络 接口 控制 器 (NIC) ， 可 以 作为 一 种 更 
先进 的 、 更 有 效率 的 制造 ， 且 将 只 需要 一 个 。 由 于 三 维 堆肥 造成 的 DRAM 功率 可 
观 的 减少 量 已 被 观察 到 ， 则 这 个 简化 的 片上 DRAM 接口 需 更 少 的 DRAM 子 块 同 时 
访问 每 个 请 求 。 其 他 部 件 在 处 于 适中 的 访问 率 和 翻转 率 的 情况 下 ， 其 在 整体 系统 的 
功 耗 中 仅 占 一 小 部 分 。 

将 PicoServer 架构 与 其 他 架构 比较 ， 可 以 看 到 在 芯片 面积 相同 的 情况 下 ，Pico 
MP8/12-500MHz 与 常规 的 没有 采用 3D HBRAWAA 1000MHz 的 二 级 缓存 的 
MP4/8 比较 时 ， 仅 用 了 少 于 一 半 的 功率 。 我 们 也 回顾 了 第 9. 5. 1 节 对 于 相同 的 芯 
片面 积 下 的 性 能 考虑 ，PicoServer 架构 的 性 能 优 于 常规 的 CMP 配置 平均 10% ~ 
20% 。 此 外 ， 正 如 在 上 一 节 中 表明 ， 我 们 能 使 用 少 于 奔腾 4 处 理 器 功率 的 1096 
来 执行 同等 任务 。 在 90nm 技术 时 ， 可 以 预计 对 于 典型 PicoServer 平台 的 功率 是 
满足 ITRS 注 明 的 功率 约束 的 。 这 表明 了 实现 超 小 外 形 平 台 服 务 器 应 用 类 型 的 
可 能 。 


第 9 章 PicoServer: 使 用 三 维 (3D) JEJdEGAROR GE GL SEVR ACER 4-25 209 





14 ge 
B Ok 5 
12 D 二 级 缓存 
Bg 
10 B 处 理 器 
ug Bl NIC MAC 
6 
4 
2 
0 ' 
MP4 w/o3D Pico MP8- MP8 w/o3D Pico MP12- 奔腾 IV 
L2 2MB S00MHz L2 2MHz S00MHz 90nm 
1000MHz 90nm 1000MHz 90nm 
90nm 90nm 


9-19 采用 90nm 工艺 下 的 3D 堆 释 技术 的 4 核 8 HK. 12 核 处 理 器 PicoServer 架构 的 平均 

击 穿 功率 。 由 于 内 核 功 耗 是 功 耗 的 主要 部 分 ， 每 个 工作 负载 的 估计 功率 没有 改变 。 我 们 预计 

在 90nm 的 工艺 下 有 2~3W 的 功 耗 。 在 1GHz 频率 下 ， 没 有 采用 3D HE CR I MP8 估计 要 
消耗 8W 的 功 耗 


9.5.3 能 源 效率 的 帕 累 托 (Pareto) 图 


在 图 9-20 和 图 9-21 中 ， 对 于 PicoServer 我 们 提出 了 一 个 帕 累 托 (Pareto) 图 表 
来 描绘 能 源 效率 (Mbs 每 焦耳 ) 和 吞吐 量 (我 们 只 列 出 了 主要 的 工作 负载 ) 。 在 此 
图 中 的 点 示 出 了 大 量 乱 序 处 理 器 ， 分 别 是 常规 的 没有 采用 3D CETERI CMP 
MP4/8 的 处 理 右 和 有 4 个 、8 个 与 12 个 核心 的 PicoServer。y 轴 代 表 Mbit/s 级 的 传 
输 ， 在 x 轴 代表 Mb/J 和 每 焦耳 的 传输 。 从 图 9-20 和 图 9-21 可 以 看 出 ， 对 于 
给 定 的 能 源 效 率 / 符 吐 量 约 束 的 处 理 器 数量 和 频率 ， 我 们 是 可 能 得 到 最 优 配 
置 的 。 

此 外 ， 从 图 9-20 和 图 9-21 中 我 们 发 现 ， 与 没有 3D 堆 释 技术 传统 的 芯片 
多 处 理 器 架构 相 比 ，PicoServer 架构 在 适中 的 500MHz 核心 频率 下 具有 2 -4 fà 
能 源 效率 。 主 要 的 功率 节省 归 因 于 可 以 使 核心 时 钟 频率 减少 的 同时 提供 高 吞吐 
量 的 三 维 堆 倒 技术。 对 于 我 们 绘制 的 数据 点 ， 在 PicoServer 架构 中 ， 当 比较 
PicoMP4-500MHz, MP8-500MHz 和 MP12-500MHz 时 ， 系统 级 能 效 的 最 优点 可 
以 被 确定 。 在 吞吐 量 达 到 并 行 之 前 的 热点 及 边际 递减 极限 到 达 之 前 ， 此 处 的 吞吐 
量 极 限 是 通过 增加 处 理 器 而 增加 的 并 行 处 理 。 并 行 处 理 的 增加 引起 了 关于 到 低 效 
率 的 中 断 平 衡 、 内 核 进 程 /线程 调度 和 资源 分 配 的 问题 ， 这 些 问 题 会 导致 减少 返回 。 
独立 研究 已 经 表明 ，OS (操作 系统 ) 可 以 被 调谐 扩展 到 多 个 核 。 本 章 参 考 文献 
[18] 和 [54] 就 是 这 样 的 例子 。 然 而 ， 我 们 觉得 这 项 工作 需要 进一步 的 调查 ， 将 
在 以 后 研究 。 
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图 9-20 在 90nm 工艺 技术 下 的 能 源 效率 和 性 能 的 帕 累 托 (Pareto) 图 。 
三 维 堆 释 技术 使 新 型 的 节能 CMP 架构 成 为 可 能 
(SPECweb99, Fenice, SPECweb2005 3 ) 
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c) TPC-C 


图 9-21 在 90nm 工艺 技术 下 的 能 源 效率 和 性 能 的 帕 累 托 (Pareto) 图 。 
三 维 堆 释 技 术 使 新 型 的 节能 CMP 架构 成 为 可 能 ( SPECweb2005- 
ecommerce, dbench, TPC-C) 
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9.6 结论 


在 本 章 中 ， 我 们 说 明了 3D 堆 县 技术 可 以 被 利用 来 构建 高 效 节 能 的 服务 逢 。 对 
于 广泛 的 服务 器 工作 负载 ， 由 此 产生 的 系统 在 一 个 紧凑 的 外 形 尺 寸 下 有 显著 的 能 源 
效率 。90nm 工艺 下 ,一 个 500MHz 下 的 12 路 PicoServer， 预 计 可 以 在 3W 的 功 耗 内 
提供 1Gbit/s 的 网 络 带 宽 。 这 些 功 耗 值 是 没有 采用 3D HEB RAR BR HD rt 
值 的 两 到 三 倍 ， 并 且 优 于 使 用 一 般 用 途 处 理 器 一 个 量 级 。 相 比 传统 的 有 2MB 二 级 
缓存 的 8 路 1GHz 的 多 处 理 器 芯片 ， 一 个 在 500MHz 下 运行 的 具有 等 效 面积 的 12 路 
PicoServer， 能 使 得 能 量 效率 有 超过 2 倍 的 改进 。 预 计 绝 对 功率 值 会 随 工艺 技术 变 
化 。 对 于 基于 PicoServer 平台 的 65nm 和 45nm 工艺 技术 节点 来 说 ， 我 们 希望 看 到 更 
多 的 内 核 和 更 低 的 功 耗 。 

通过 广泛 和 低 延 迟 的 互 连 ， 紧 密 结合 大 量 内 存 到 内 核 周围 ， 还 带 来 了 额外 的 收 
益 ， 降 低 了 系统 复杂 度 ， 并 用 不 一 致 的 访问 延 时 来 创造 已 实施 系统 内 存 的 机 会 。 三 
维 技术 使 高 吞吐 量 、 低 功 耗 的 DRAM 核 接口 成 为 可 能 。 由 于 片上 的 DRAM 访问 延 
迟 和 二 级 缓存 的 访问 延迟 是 可 比较 的 ， 则 二 级 缓存 芯片 面积 可 以 被 额外 的 核 替 换 ， 
使 得 核心 时 钟 频率 降低 ， 同 时 实现 更 高 的 否 吐 量 。 


致 p 
这 项 工作 是 由 美国 国家 科学 基金 会 ，Intel 公司 和 ARM 公司 的 支持 。 
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第 10 章 系统 级 三 维 (3D) 集成 电路 
成 本 分 析 与 设计 探索 
Xiangyu Dong Yuan Xie 

目前 大 部 分 3D IC 都 集中 在 如 何 利 用 其 在 性 能 、 功 耗 、 更 小 外 形 和 异 构 集成 方 
面 的 优势 。 然 而 ， 当 设计 策略 被 确定 时 ， 所 有 的 优势 最 终 将 转化 为 成 本 节约 。 因 
此 ， 早 期 设计 阶段 的 系统 级 成 本 分 析 是 必要 的 ， 这 有 助 于 决定 3D 集成 方案 是 否 被 
采纳 。 在 本 章 中 ， 我 们 将 讨论 在 早期 设计 阶段 3D 芯片 设计 的 评估 方法 。 我 们 还 摘 
述 一 个 成 本 分 析 模 型 来 研究 3D IC 成 本 的 影响 因素 并 寻求 3D IC 设计 相关 的 成 本 
问题 。 


10.1 介绍 


目前 大 部 分 3D IC 都 集中 在 如 何 利用 其 在 性 能 、 功 耗 、 更 小 外 形 和 异 构 集成 方 
面 的 优势 。 例 如 ，7. 9 节 已 经 说 明了 3D 设计 的 这 些 好 处 。 但 是 ， 当 涉及 采纳 这 样 
的 新 兴 技 术 作为 主流 设计 方法 时 ， 这 一 切 都 归结 于 3D 集成 的 成 本 问题 。 当 设计 策 
略 被 决定 “时 ，3D 集成 电路 的 所 有 优点 最 终 转化 为 成 本 的 节省 。 例 如 ， 设 计 人 员 
可 能 会 问 自己 一 些 问题 ， 如 难道 3D IC 设计 的 所 有 优点 都 会 市 来 更 大 的 成 本 ? 例 
如 ，3D 键 合 带 来 了 额外 的 工艺 成 本 ， 而 且 通 过 硅 通 孔 (TSV) 可 能 会 增加 总 的 必 
片面 积 ， 这 对 成 本 有 负面 影响 。 然 而 ， 相 比 于 2D 电路 , 在 3D 集成 电路 中 ， 更 小 
的 必 片 太 二 可 能 会 有 更 高 的 产量 并 且 降 低 成 本 。 

如 何 使 3D 集成 电路 保持 成 本 效益 ? 比如 ， 重 新 设计 一 个 小 必 片 可 能 无 法 获得 
X B 3D 集成 电路 高 产量 的 成 本 优势 。 此 外 ， 如 果实 施 心 片 3D 化 ， 如 何 确 定 3D f 
成 电路 的 层 数 以 保证 成 本 效益 ， 并 且 应 该 使 用 唱 圆 到 品 圆 还 是 芯片 对 唱 圆 的 
HEUS, 

是 否 有 设计 方案 能 补偿 3D 集成 电路 额外 的 成 本 ? 例如 ， 相 比 于 每 个 2D 芯片 ， 
在 3D 集成 电路 中 ,采用 TSV 技术 的 全 局 互 连 会 减少 所 需 的 金属 层 数 。 此 外 ，3D 
异 构 集 成 通 孔 也 可 以 帮助 降低 成 本 。 

在 早期 设计 阶段 ，3D 集成 电路 成 本 分 析 的 关键 是 要 回答 上 述 问题 ， 并 且 有 助 
于 做 出 3D 集成 电路 是 否 应 该 被 使 用 的 决定 并 有 助 于 判断 哪 种 设计 方案 应 该 被 采纳 
(如 层 数 和 键 合 方法 )。 在 未 来 ,广泛 应 用 新 兴 的 3D IC 设计 的 关键 是 成 本 效益 ， 
并 且 3D 集成 电路 的 成 本 分 析 要 与 3D IC 设计 和 3D IC 工艺 紧密 相连 。 

本 章 中 ， 我 们 首先 描述 3D 芯片 早期 设计 阶段 ( 见 10.2 节 ) 的 设计 评估 方法 ， 
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并 提出 成 本 分 析 模 型 来 研究 3D 集成 电路 ( 见 10.3 节 ) 的 成 本 。 使 用 设计 评估 方 
法 和 3D 成 本 分 析 模 型 ， 我 们 比较 了 2D 和 3D 设计 之 间 估 算 的 成 本 ， 并 调查 了 各 种 
因素 对 成 本 的 影响 ， 以 及 3D 集成 带 来 的 可 能 降低 成 本 的 方式 。 成 本 驱动 的 3D IC 设 
计 流 程 也 被 提出 ， 它 指导 3D IC 的 设计 向 具有 成 本 效益 的 方 回 发 展 〈 见 10.4 市 )。 


10.2 三 维 集成 电路 的 早期 设计 评估 


为 了 便于 决定 是 否 应 该 使 用 3D 集成 设计 ， 从 成 本 的 角度 来 看 ， 当 没有 太 多 详 
细 的 设计 信息 可 利用 时 ， 有 必要 在 初期 设计 阶段 进行 成 本 分 析 。IC 芯片 的 成 本 与 必 
片面 积 密切 相关 。 对 于 3D 458r, TSV 技术 可 能 产生 额外 的 面积 开销 。 然 而 ,在 3D 
集成 电路 的 连 线 时 可 以 使 用 较 少 金属 层 数量 ， 进 而 有 助 于 降低 成 本 。 

本 节 ， 我 们 将 叙述 在 早期 的 设计 阶段 ， 当 设计 (例如 估计 在 设计 中 的 门 数 ) 
仅 有 有 限 可 用 信息 时 ， 怎 样 评估 必 片 面积 ， 评 估 易 于 灵活 布线 的 金属 层 数 ， 并 评估 
TSV 技术 对 必 片 面积 的 影响 。 这 种 有 利于 3D IC 成 本 分 析 的 早期 评估 将 在 10. 3 节 


讨论 o 
10.2.1 “ 兰 特 规则 ”的 初探 


我 们 的 早期 设计 估计 是 基于 著名 的 兰 特 规则 (Rent! s Rule)! 。 兰 特 规则 揭 
示 信 和 号 终端 的 数目 和 内 部 的 门 数 之 间 的 对 应 关系 。 它 基于 现 有 设计 观测 到 的 经 验 化 
的 结果 ， 且 可 表示 为 
T = RN (10-1) 
AP, S% k Alp 为 兰 特 规则 的 系数 和 指数 ; N, 是 门 数 ; T 是 终端 信和 号 的 数目 。 
使 用 兰 特 规则 ， 就 能 够 进一步 估计 平均 线 长 … 和 导线 长 度 布 局 "1] 。 平 均线 长 
度 可 以 通过 下 式 给 出 





= _2 1-47" el es Wm 
Rn 7g " gee] Tj dnd 
当 p =0.5 时 ， 所 述 表 达 可 以 使 用 洛 必 达 法 则 "计算 得 出 。 
由 兰 特 规则 派生 ， 导 线 长 度 分 布 也 数 i(1) 有 以 下 几 种 形式 : 
区 域 1: Lsls /N, 
i(1) Ar -2/N,P +N) (10-3) 
KRZ: /N,<1<2,/N, 
i(1) -Sir(2/N, -DP (10-4) 


WP, 是 在 各 单元 门 间距 的 互 连 线 长 度 ; a 是 片上 接收 终端 的 分 数 且 与 门 平均 扇 
出 数 相关 (fo), ， 如 下 : | 
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EDA、 设 计 和 微 体 系 结 构 
__ fo. : 
2 fo +1 und 
并 且 三 是 通过 下 式 给 出 : | 
ur aaa e MEC Y CE (10-6) 


l5 - 357i ,2VNe 


TT t-i g= 
10.2.2 芯片 面积 和 金属 层 估 计 


在 早期 的 设计 阶段 ， 裸 片面 积 可 用 门 数 代 入 函数 进行 估算 : 
Ay, =NA, (10-7) 
AF, N, 是 门 的 数量 ; A, 是 经 验 参 数 ， 显 示 面 积 和 门 数 之 间 的 比例 关系 。 根 据 工 
业 设 计 经 验 ， 我 们 在 这 项 工作 中 假设 A, 2312527, HPA 为 特定 技术 节点 特征 尺 
寸 的 一 半 。 
布局 所 需 金属 层 的 数量 取决 于 互 连 的 复杂 性 。 对 于 单一 金属 层 的 估计 可 以 从 平 
均线 的 长 度 得 出 ” : 











'o. R N 
w-——— Dy (10-8) 
e A die 


sth, fio. 指 的 是 门 平均 扇 出 数 ; p, 指 的 是 线 间距 ; e, 指 的 是 金属 层 的 利用 效率 ; 
R, 指 的 是 平均 线 长 ， 由 式 (10-2) 所 确定 ; n, 指 的 是 金属 层 数 。 这 种 简化 的 模型 
基于 各 金属 层 具 有 同样 的 利用 效率 ， 并 且 线 宽度 相同 的 假设 0?] 。 然 而 ， 这 种 假设 
可 能 无 法 在 实际 设计 中 成 立 53] 。 此 外 ， 该 模型 中 不 包括 TSV 造成 额外 面积 的 影响 ， 
当 3D 集成 电路 的 复杂 性 增加 时 ， 这 种 影响 将 造成 非常 严重 的 后 果 。 

为 了 提高 对 金属 层 布线 数量 的 估计 的 准确 性 ， 我 们 提出 了 一 个 新 的 3D 布局 布 
线 模型 ， 它 基于 金属 线 长 分 布 ， 而 不 是 平均 线 长 的 简单 估计 。 该 模型 的 基本 思想 解 
UF: 

用 表达 式 估计 每 个 金属 层 可 用 的 布线 区 ， 即 
4u 人 1 一 24v Ne o. - I(1;)) 
RP, n 是 利用 效率 ; w, 是 线 间距 ; A, 是 每 个 通 孔 的 阻 值 ， 函 数 1(1) 是 导线 长 度 
分 布 函 数 i(1) 的 积分 ， ER (10-4) 中 已 表达 。 

假设 较 短 的 互 连 线 都 在 下 部 金属 层 布线 。 从 金属 1 开始 ， 我 们 将 尽 可 能 多 的 互 
连 在 当前 金属 层 上 布线 ， 直 到 可 用 的 布线 区 域 被 用 完 。 布 线 时 每 个 金属 层 的 互 连 可 
以 被 表示 为 


K = (10-9) 


XL(I;) -XL(l; ,) «K, (10-10) 
式 中 , X= 4/(f0. +3) 是 导线 对 同一 网 络 互 连 线 之 间 共 享 的 一 个 因子 1。 函数 
L(L) Æi) B— BABERE, 
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对 每 个 金属 层 实行 自 下 而 上 的 方式 重复 计算 ， 直 到 所 有 的 互 连 布线 正确 。 

通过 应 用 上 面 介 绍 的 估算 方法 ， 在 早期 设计 阶段 我 们 仅 有 作为 输入 的 门 数 量 
时 ， 可 以 预测 芯片 面积 和 金属 层 数 。 图 10-1 示 出 了 估计 面积 和 基于 65nm TAH 
同门 数量 级 的 电路 金属 层 数 的 例子 。 

图 10-1 显示 了 一 个 重要 含义 ， 即 在 这 种 情况 下 3D IC 成 本 会 降低 : 当 一 个 大 
的 2D 芯片 被 划分 成 多 个 较 小 的 面积 3D tS HEB, BEBE 3D 芯片 需要 的 金 
属 层 的 数量 较 少 ， 可 满足 该 互 连 布线 的 要 求 。 这 种 金属 层 数 的 减少 可 抵消 3D o5 
ME Si UIS Ah MAK o 


350.00 11 
—9— 预 估 面 积 


250.00 


200.00 


面积 /mm? 
金属 层 数 


150.00 


100.00 


50.00 





0.00 


100M SOM 20M 10M 5M 


门 数量 
图 10-1 早期 设计 时 的 芯片 面积 和 金属 层 数 估计 (65nm 工艺 )。( 目 前 这 评估 方法 与 
国家 最 先进 的 微 处 理 器 设计 紧密 相关 。 例 如 ，Sun SPARC T25 fu à 5 亿 个 
晶体 管 (相当 于 125 亿 门 )，342mm 面积 和 11 个 金属 层 ) 


10.2.3 TSV 技术 的 影响 


在 3D MEE AKA EP, REMF (TSV) 的 使 用 对 其 成 本 的 影响 是 双重 的 : 

在 3D 集成 电路 中 ， 在 堆 私 裸 片 之 间 可 使 用 一 些 全 局 性 的 互 连 TSV 技术 。 这 将 
会 导致 线 长 减 小 ， 并 使 得 每 个 较 小 的 芯片 的 金属 层 有 减少 的 可 能 。 

另 一 方面 ，3D HEB PAV HEFL (TSV) 可 能 会 增加 总 的 芯片 面积 ， 是 因为 硅 
片上 的 TSV 通 孔 可 能 不 被 用 于 器 件 连接 或 2D 金属 层 连接 (基于 当前 的 TSV 技术 ， 
其 直径 为 0.2 - 101m?) ) 。 

因此 ， 评 估 硅 通 孔 (TSV) 的 数量 对 芯片 面积 增加 的 影响 是 很 重要 的 。 

为 了 预测 一 确定 区 域 模式 所 需 的 硅 通 孔 (TSV) 的 数量 ， 互 连 (X) mr] 
(N,) 之 间 的 关系 可 用 以 下 关系 表示 ( 兰 特 规则 的 推导 ): 

X 2 akN,(1- N^) (10-11) 

如 图 10-2 所 示 ， 硅 通 孔 (TSV) 的 数目 可 以 由 下 式 估算 : 
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Xpy = atk, ,(N, + N,) (1 - (N, € N,)"?7 -ak N (1 -NP )o N, (1 - NT ) 
| (10-12) 
式 中 ,ki ,和 pis 相当 于 兰 特 规则 的 系数 和 指数 。 由 硅 通 孔 (TSV) 所 引起 的 额外 面 
积 开销 可 以 按 如 下 方式 建 模 : 
Asp =Agie + NTsv/dieA rsv (10-13) 
式 中 ， 4 由 芯片 面积 估算 ; N rsy N BEA ot Fr EREM FL (TSV ) 的 数量 ; f. O A 
通 孔 (TSV) 的 大 小 ; AE 3D 芯片 部 分 最 终 面 积 。 


N=NI+N) 晶 体 管 
X 互 连 


在 层 1 和 层 2 间 
B EX,» 
(4 of TSV) 





图 10-2 ”如何 估算 硅 通 孔 (TSV) 数目 的 基本 思路 


10.3 三 维 (3D) 成 本 模型 


三 维 集成 电路 包含 由 传统 制造 工艺 堆 琶 多 个 心 片 而 成 的 必 片 。 有 几 种 不 同 的 方 
式 将 分 立 的 芯片 堆 春 在 一 起 ”， 其 中 以 TSV 为 基础 的 方法 是 最 有 效 的 。 除 了 传统 
的 2D 工艺 ,3D 集成 电路 需要 额外 的 制造 步骤 ， 例 如 激光 销 孔 或 蚀刻 形成 硅 通 孔 
(TSV) ， 品 圆 减 薄 和 品 圆 键 合 。 

我 们 将 3D IC 制作 过 程 的 每 一 步 成 本 进行 模拟 ， 并 把 成 本 分 析 分 为 芯片 成 本 模 
型 和 三 维 键 合成 本 模型 ， 如 图 10-3 Bras. 

唱 圆 成 本 模型 。 忌 片 成 本 模型 的 关键 因素 是 心 片 的 面积 。 如 果 假 设 唱 圆 成 本 、 
产量 和 缺陷 密度 是 常数 ， 那 么 对 使 用 特定 技术 节点 的 特定 代 工 厂 ， 芯 片区 域 的 影响 
可 通过 如 下 的 两 个 表达 式 RAR: 


AE E y D x 中 
Ny. = ET (Papel?) TX Pete (10-14) 


A tie fina. 
(10-15) 


AWP, Nade BET ae ALS Fr ABR; Daye, FEA ALAS EAE: Voie AD Y oae HES Hr AL i 
的 产 率 ; 是 D, 为 唱 圆 的 缺陷 密度 。 

我 们 从 不 同 唱 圆 代 工 广 得 到 的 品 圆 成 本 模型 包括 材料 成 本 、 人 工 成 本 、 代 工 利 
润 率 、 标 线 的 数量 、 每 个 掩 膜 版 的 成 本 ， 以 及 其 他 杂项 费用 ”。 图 10-4 展示 出 
90nm, 65nm, 45nm 工艺 分 别 用 9 层 或 10 层 的 金属 和 3 个 不 同 晶 圆 代 工厂 所 对 应 
HY irs [a] BLA 
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J 7 
CO 键 合 成 本 模型 (irm 
ZA 7 





KGD 测 试 成 本 ) 
Emm 





3D 芯 片 成 本 


图 10-3 提出 的 3D 成 本 模型 概况 图 


一 4 一 品 圆 代 工 1-9M 
一 如 一 唱 圆 代 工 1-10M 
一 让 一 晶 圆 代 工 2-9M 
— di [LX T.2- 10M 
em 品 圆 代 工 3-9M 
om 品 圆 代 工 3-10M 


——- 


归 一 化 晶 圆 成 本 








90nm 65nm 45nm 


图 10-4 一 组 由 唱 圆 成 本 模型 计算 的 数据 。 由 不 同 工 艺 、 不 同 金属 层 数 、 
不 同 唱 圆 代 工 广 以 及 其 他 一 些 因素 对 品 圆 成 本 产生 的 变化 


三 维 键 合成 本 。 第 2 章 中 描述 了 各 种 三 维 键 合 方法 。3D 集成 电路 需要 额外 的 
WR, BI TSV 形成 、 减 薄 和 键 合 。 在 这 项 工作 中 ,我们 模拟 了 两 种 方法 来 实现 
3D TSV 技术 : 激光 钻 孔 和 蚀刻 。 激 光 钻 孔 只 适合 少数 的 TSV ( 数 百 至 数 千 )， 而 
刻 蚀 适 合 于 大 量 的 TSV。TSV (MTL) 刻 蚀 过 程 类 似 于 形成 金属 层 之 间 的 通 孔 ， 但 
正如 它 名 字 所 暗示 的 ，TSV 是 “通过 硅 ”。 用 于 TSV 蚀刻 的 两 种 方法 : (DTSV- first, 
TSV 可 以 在 2D 必 片 制造 工艺 中 形成 ， 在 后 端 BEOL (back- end- of- line) 工艺 之 前 ， 
这 种 方法 被 称 为 TSV-first， 如 图 10-5a 所 示 ; QTSV-last, TSV 也 可 以 在 2D 工艺 完 
成 之 后 形成 ， 在 BEOL (back- end- of- line) 之 后 ， 这 种 方法 被 称 为 TSV- last， 如 


EDA, iki fef 4k R 25 74 





222 3D 集成 电路 设计 





图 10-5b 所 示 。 我 们 的 3D 键 合成 本 模型 是 基于 行业 合作 伙伴 提供 的 3D 工艺 ， 并 
假设 每 个 3D 工艺 步骤 的 成 品 率 达 99% 。 





图 10-5 制备 3D 集成 电路 的 步骤 : a) TSV 是 BEOL 过 程 之 前 形成 ， 从 而 TSV 只 
能 通过 在 硅 衬 底 打 孔 而 不 是 金属 层 ; b) TSV 的 形成 是 在 BEOL 工艺 之 后 ， 
从 而 TSV 的 通 孔 不 仅 在 硅 衬 底 ， 也 在 金属 层 


整个 3D 成 本 模型 。 除 了 品 圆 成 本 模型 和 键 合成 本 模型 ， 整 个 3D 成 本 模型 还 
取决 于 一 些 设计 方 案 ， 诸 如 芯片 到 晶 圆 / 唱 圆 到 晶 圆 的 键 合 ， 面 到 面 / 面 到 背 的 键 
合 ， 和 已 知 良 好 的 芯片 的 成 本 … 。 

对 于 D2W 键 合 ， 封 装 前 芯片 成 本 的 计算 方法 是 

pm (Cu + Cremer) Yaa + CN -1 J Cuondins 
Cw a: MEME (10-16) 

对 于 WOW RAR, REASONS 

pae T GT = 1 Ld 
CI oan d Tos 

为 了 文 持 多 层 键 合 ， 默 认 的 键 合 方式 是 面 对 背 。 如 果 用 面 到 面 模式 时 ， 有 
多 余 一 个 不 需要 减 薄 加 工 的 芯片 ， 那 么 需要 从 总 成 本 中 减 去 该 芯片 的 薄型 化 
成 本 。 


(10-17) 


Cw m 
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10.4 系统 级 三 维 IC 设计 探索 


基于 早期 设计 估计 方法 和 前 面 章节 中 所 描述 的 3D 成 本 分 析 模型 ， 我 们 使 用 
IBM 通用 工艺 平台 成 本 模型 在 系统 级 执行 一 系列 设计 分 析 ， 调 查 不 同 设计 方案 对 
3D IC 成 本 的 影响 ， 并 且 从 成 本 的 角度 归纳 了 三 维 集成 电路 设计 的 几 条 规则 。 


10.4.1 评估 TSV 对 芯片 面积 的 影响 


正如 10.2 节 所 说 ,在 3D IC 上 构建 的 TSV 不 仅 会 带 来 额外 的 工艺 成 本 ， 而 且 
还 导致 面积 成 本 。 面 积 成 本 会 影响 芯片 成 品 率 和 唱 圆 利用 率 。 基 于 式 (10-12), 
并 根据 Bakoglu 的 研究 5 设置 指数 参数 P 20.63 和 系数 参数 k=1.4。 我 们 进一步 假 
设 3D 层 数 为 W， 并 且 所 有 的 门 被 均匀 地 划分 为 层 。 我 们 选择 的 TSV 的 间距 尺寸 
为 8um。 使 用 早期 的 设计 估算 ， 预 测 65nm 工艺 下 对 TSV 的 影响 ， 如 图 10-6 所 示 。 

与 式 (10-13) HFE, TS 面积 成 本 随 3D 层 数 的 增加 而 增加 。 对 于 4 层 的 
小 规模 设计 (500 万 门 ) ， 其 成 本 高 达 10% 。 然 而 ， 当 足够 大 的 大 规模 设计 (2 亿 
门 ) 且 3D REZAK, TSV 面积 成 本 通常 低 于 2% 。 总 的 来 说 ， 对 于 大 
的 设计 ，TSV 的 面积 成 本 是 可 以 接受 的 。 


400 12.00% 
~ 量 ~ 面积 (2 层 ) 
350 —— Bf (3 层 ) 
~ 全 一 面积 (4 层 ) > 
-= TSV 费 用 (2 B) 
-~ TSV 费 用 (3 JÆ) 8.00% 
ad 一 ~ TSV 费 用 (4 层 ) 


10.00% 


6.00% 


面积 /mmz 
= 
TSV 费 用 比率 


4.00% 


» : SSK 2.00% 
AN 


7 


E 0.00% 
200M 100M 50M 20M 10M 5M 
门 数 量 
图 10-6 面积 和 TSV 占 总 面积 的 百分比 : 对 于 小 规模 设计 ，TSYV 面积 成 本 接近 到 10% , 
但 对 于 较 大 规模 设计 ，TSYV 面积 成 本 小 于 4% 


10.4.2 三 维 (3D) IC 中 减少 金属 层 的 潜力 


从 理论 上 说 ， 当 门 的 数目 被 均匀 地 分 布 到 多 个 3D MEG Hr PESE, REA BEINGS 
片上 的 总 线 长 度 等 于 大 规模 2D 芯片 的 整体 线 长 除 以 芯片 个 数 。 此 外 ， 正 如 10.2 
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节 中 所 说 ， 由 于 TSV 的 存在 ， 总 线 长 度 随 着 3D 芯片 层 数 的 增加 而 降低 。 把 这 两 个 
因素 一 起 比较 ， 可 知 每 层 芯片 的 布线 复杂 度 比 2D 基线 设计 的 复杂 度 小 得 多 。 其 结 
果 就 是 使 3D 芯片 堆 释 中 的 每 一 个 小 芯片 都 能 移 除 一 个 或 两 个 金属 层 。 
通过 10. 2 节 中 讨论 的 3D 芯片 布线 模型 的 评估 ， 我 们 可 以 预测 金属 层 数 降低 
的 影响 ， 结 果 见 表 10-1, | 
10-1 每 个 芯片 所 需 的 金属 层 的 数量 (65nm Hae) 


门 数 1 2D 2 23D 3 23D 4 层 3D 
5 


ME HEN NK: 
NEC NN MN NN: 
L9 — j| d 


RUE EGR BS HY EAE OT BONUS B ETT P. SLAF AR SÉ ET 78 EC (n 500 万 
门 设计 ) ,但 随 厦 设计 复杂 度 的 增长 ,金属 层 数 的 减 小 变 得 越 来 越 明 显 。 例 如 ， 当 
设计 大 规模 2D ( 即 2 亿 门 ) 时 ,通过 均匀 地 将 其 划分 为 2、3 或 4 个 独立 的 芯片 来 
进行 3D 堆 琶 ， 相 应 地 可 以 使 金属 层 数 减少 2、3 或 4 层 。 

总 而 言 之 , 在 3D 集成 电路 的 设计 中 ， 相 对 于 2D 布线 设计 ， 有 可 能 在 每 个 小 
规模 心 片 中 使 用 较 少 数量 的 金属 层 数 。 这 种 金属 层 数 的 减少 可 以 抵消 3D 集成 电路 
额外 的 键 合成 本 。 


10.4.3 键 合 工艺 : D2W 或 W2W 


在 3D 集成 电路 中 ， 世 片 到 唱 圆 (D2W) ARASA (W2W) 是 两 种 不 同 
的 键 合 多 芯片 的 方法 ”。10. 3 节 通 过 引入 良品 测试 (KCD) 讨论 了 这 2 种 建 模 方 
ik, D2W 键 合 可 以 达到 更 高 的 生产 率 。 然 而 W2W 在 键 合 前 并 不 需要 任何 测试 ， 
而 以 产量 为 代价 ， 将 易于 具有 高 的 吞吐 量 的 裸 片 对 准 。 因 为 DW Al W2W 都 有 自 
己 的 优点 和 缺点 ， 我 们 可 以 用 3D 的 成 本 模型 找 出 哪 一 个 更 适合 3D 集成 技术 。 

图 10-7 展示 出 传统 2D 工艺 、 两 层 D2W 键 合 和 两 层 W2W 键 合 的 成 本 对 比 。 
可 以 观察 到 的 是 ， 在 小 规模 设计 情况 下 ， 虽 然 W2W 的 成 本 少 于 DW, 但 是 
W2W 的 成 本 依旧 比 2D 工艺 成 本 更 高 。 这 个 现象 可 通过 面积 和 产量 之 间 的 关系 
来 解释 ， 并 可 以 由 式 (10-15) 表达 。 对 于 W2W 键 合 ， 每 层 芯片 组 件 的 产量 由 
于 面积 的 减 小 而 有 所 增加 ， 当 所 有 不 做 寺前 测试 的 芯片 被 堆 至 在 一 起 ， 整 个 芯 
的 成 品 率 等 于 每 层 芯片 组 件 成 品 率 。 因 而 W2W 键 合 的 3D 芯片 总 成 品 率 与 2D 芯片 
一 样 低 。 在 考虑 额外 键 合 成 本 之 后 ， 便 能 合理 的 解释 为 什么 W2W 一 直 比 传统 2D 
化 费 的 更 多 。 | 
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K| 10-7 在 65nm LË F 2D, WE D2W AWE W2W 的 成 本 对 比 
(考虑 了 TSV 面积 开销 和 金属 层 的 减少 ) 


— 


总 之 ， 从 产品 率 的 角度 来 看 ， 基 于 我 们 的 唱 圆 成 本 模型 和 3D 键 合成 本 模型 来 
看 ， 芯 片 到 晶 圆 (D2W) 比 晶 圆 到 蝇 圆 (W2W) 更 具有 成 本 优势 。 


10.4.4 成 本 与 三 维 层 数 


基于 设计 早期 阶段 的 评估 方法 可 以 预测 3D IC 必 片 面积 、3D 的 TSV 影响 和 人 金 
属 层 数 减少 的 影响 ， 我 们 可 以 进一步 使 用 这 些 设计 相关 的 参数 作为 输入 ， 输 入 到 
10. 3 节 所 提出 的 3D IC 成 本 模型 ， 并 评估 每 个 3D 设计 方案 的 成 本 。 

首先 ， 我 们 选择 IBM 公司 的 65nm 通用 平台 模型 ， 并 把 2D 基线 设计 成 本 分 别 
与 其 相应 的 2、3 和 4 个 发 片 堆 释 在 一 起 的 3D 必 片 作对 比 。 图 10-8 显示 出 成 本 评 
佑 是 基于 2D 布线 设计 均匀 划分 的 假设 。 
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从 图 10-8 中 可 以 观察 到 ， 由 于 芯片 尺寸 和 芯片 产量 之 间 的 指数 关系 ， 成 本 随 
着 芯片 尺寸 的 增长 急剧 增加 。 因 为 当 芯 片面 积 较 大 时 ， 产 量 对 芯片 面积 的 变化 会 十 
分 敏感 ， 所 以 对 于 将 芯片 分 割 成 多 个 来 说 ， 大 规模 2D 芯片 设计 会 比 小 规模 2D 心 
片 设 计 更 有 可 能 减少 整体 成 本 。 

另外 需要 注意 的 是 ，3D 芯片 的 最 佳 层 数 〈 就 成 本 而 言 ) 会 有 所 不 同 ， 它 取决 
于 设计 的 大 小 。 例 如 ， 对 于 2 亿 门 最 具 成 本 效益 的 方式 就 是 做 一 个 4 层 3D 分 割 的 
3D AA; 但 对 于 1 亿 门 的 设计 ， 最 具有 成 本 效益 的 方法 是 使 用 2 层 3D 集成 ; 当 最 
初 的 2D 设计 相当 小 ( <5000 万 ) 时 ， 传 统 的 2D 工艺 依旧 是 最 便宜 的 ， 这 是 因为 
此 时 3D 键 合成 本 开始 处 于 主导 地 位 且 小 规模 3D 组合 可 以 提高 产量 。 

在 IBM 公司 的 通用 平台 技术 模型 上 使 用 不 同 工 艺 重复 实验 ， 我 们 佑 计 出 一 组 
边界 值 ， 显 示 出 两 层 的 3D EER oa eS 2D 工艺 更 具 成 本 效益 的 边界 。 该 数据 
列 于 表 10-2。 如 果 我 们 把 门 的 数量 转换 为 心 片 尺寸 ， 两 层 3D 工艺 的 应 用 拐点 为 约 
250mm 。 两 层 以 上 芯片 堆 春 的 应 用 拐点 可 能 会 更 大 。 


表 10-2 3D 制造 工艺 的 应 用 拐点 


总 结 一 下 ， 大 规模 3D 集成 电路 具有 成 本 效益 ， 而 非 小 规模 设计 ; 3D 集成 电 
路 的 层 数 ( 从 成 本 的 角度 来 看 ) 的 最 佳 数目 随 门 数 增加 而 增加 。 


10.4.5 SHEER 


Ara ERT OARS PE OES, (HIE 3D 集成 电路 最 大 的 优点 之 一 是 它 支持 
异 构 堆 徐 ， 因 为 其 可 以 由 不 同类 型 的 部 件 制 成 。 

用 目前 高 性 能 微 处 理 器 作为 例子 ， 硅 面积 上 的 很 大 一 部 分 是 被 片上 SRAM 或 
DRAM 占据 ， 并且 非 易 失 性 存储 器 可 以 被 集成 于 片上 存储 器 ”| 。 然 而 ， 对 于 不 同 
的 模块 来 说 ， 其 相应 的 制造 工艺 也 是 不 同 的 。 例 如 ， 当 传统 常规 CMOS 逻辑 电路 需 
要 1- 多 唱 硅 -9- 铜 -1- 铝 互 连 层 时 ，DRAM 模块 需要 的 是 7- 多 晶 硅 -3- 铜 ， 而 闪存 模 
块 则 需要 的 是 4- 多 唱 硅 -1- 钨 -2- 铝 。 其 结果 是 异 构 集 成 将 显著 地 增加 成 本 。 比 如 ， 
Intel 公司 的 研究 表明 大 规模 2D SoC 异 构 集 成 会 将 芯片 成 本 提高 3 f. 

分 离异 构 制 造 技术 和 3D 集成 堆 释 组 件 会 对 这 些 系 统 产 生成 本 效益 。 在 这 里 ， 
我 们 采用 OpenSPARC T2' 来 研究 。 最 初 2D 的 OpenSPARC T2 芯片 有 342mm? 的 
面积 ， 它 采用 TI 65nm 制造 工艺 和 11 层 金 属 数 。 大 约 一 半 的 芯片 面积 将 会 给 片上 
SRAM 缓存 使 用 。 对 于 这 种 微 处 理 器 ， 使 用 3D 集成 的 一 种 办 法 就 是 将 所 有 的 
SRAM 模块 从 一 个 忆 片 上 分 开 ， 并 且 所 剩 其 他 模块 集成 在 其 他 的 芯片 上 ， 这 与 近期 
Intel 公司 发 布 的 80 核 万 亿 级 芯片 相似 … 。 应 用 10. 2 节 早 期 设计 的 评估 方法 ， 并 选 
择 用 于 SRAM 的 兰 特 参数 p =0. 12, k=6, 我们 由 此 可 估计 出 SRAM 模块 的 金属 层 
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数 可 减少 到 5。 并 且 我 们 可 以 进一步 通过 使 用 3D IC 成 本 模型 来 估计 忌 片 总 成 本 。 
这 些 对 比 见 图 10-9 o 


价格 (a.u.) 
| 





二 维 三 维 同 构 三 维 异 构 
(存储 器 + 内 核 ) 


10-9 ”分别 估算 使 用 传统 2D、 同 构 3D 划分 和 异 构 3D 划分 制 成 的 OpenSPARC T2 的 
成 本 : 制造 该 存储 融和 分 立 的 核心 部 分 可 以 进一步 节省 成 本 


总 之 ， 异 构 集成 提供 了 额外 的 机 会 能 够 使 3D IC 设计 的 总 成 本 降低 。 
10.5 成 本 驱动 型 的 三 维 设计 流程 


在 正式 设计 前 ， 对 3D IC 成 本 分 析 进 行 上 述 讨论 ， 并 将 早期 设计 的 评估 预测 作 
为 成 本 模型 全 部 地 输入 。 然 而 ， 如 果 在 设计 时 期 应 用 相同 的 成 本 分 析 方 法 ， 并 使 用 
真实 的 设计 数据 ， 如 心 片面 积 、TSYV 互 连 和 金属 互 连 作为 成 本 模型 的 输入 ， 这 会 使 
成 本 驱动 型 3D IC 设计 流程 成 为 可 能 。 图 10- 10 展示 了 所 提出 的 成 本 推动 3D IC ix 
计 流 程 。 设 计 流 程 中 加 入 了 集成 3D IC 成 本 分 析 模 型 ， 指 导 设 计 者 优化 3D IC 设计 
并 最 终 制造 出 低 成 本 的 产品 。 

这 样 的 成 本 分 析 / 减 小 的 EDA 流程 由 3 组 操作 组 成 : 设计 相关 操作 、 成 本 建 模 
相关 的 操作 和 降低 成 本 操作 。 

e 设计 相关 操作 包括 3D 划分 、 时 序 分析 和 布局 布线 ， 所 有 这 些 都 是 典型 的 
3D 心 片 设计 流程 。 这 些 操作 会 影响 成 本 评估 。 例 如 ， 不 同 的 划分 策略 可 能 导致 不 
同 的 组 件 在 一 个 芯片 上 有 不 同 数目 的 L/0 接口 。 布 局 布线 确定 每 层 的 互 连 拓扑 结 
构 ， 并 导致 3D 集成 电路 需要 不 同 数目 的 硅 通 孔 ， 这 会 影响 键 合 费用 。 

e 成 本 模型 操作 ”包括 芯片 面积 评估 〈 计 算 每 层 芯 片面 积 ) 、 唱 圆 成 本 模型 
(计算 每 个 组 合 层 的 成 本 ) 、3D 键 合 成 本 模型 RER S i H RA A 
3D 通 孔 的 成 本 )、 堆 荆 成 本 模型 、 用 于 评估 相关 不 同 堆 秋 方案 的 选择 成 本 。 例 如 ， 
ts Fr Bll es BA] (D2W) 堆 秋 需要 在 顶层 其 他 芯片 堆 释 前 进行 良品 测试 ， 并 会 产生 额 
外 的 忌 片 测试 费用 ; 但 它 可 以 提高 堆 伙 芯片 的 产量 。 这 些 模型 在 前 面 的 章节 中 已 经 
说 明 。 

e 降低 成 本 操作 ”包含 可 能 的 降低 成 本 的 办 法 。 例 如 ， 一 种 方法 被 称 为 异 构 
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HERES. 在 被 分 区 到 芯片 上 的 组 件 不 是 至 关 重 要 时 ， 可 用 速度 较 慢 (BUE 
宜 ) 的 制造 工艺 (如 0.18pm CMOS 工艺 ) 。 当 分 区 到 芯片 上 的 组 件 是 至 关 重 要 的 
芯片 时 ， 要 用 更 高 级 (快速 但 是 昂贵 ) 的 制造 技术 (如 65nm CMOS 工艺 ) 。 第 二 
种 方法 被 称 为 金属 层 减少 法 : 当 设 计 从 2D 变 到 3D 时 ， 每 个 芯片 自身 使 用 更 少 的 
金属 层 数 布线 ， 这 可 以 节省 后 端 工 艺 成 本 。 

用 3D EDA 设计 流程 作为 一 个 独特 而 紧密 的 集成 成 本 分 析 具 有 两 方面 的 优势 。 
首先 ， 正 如 我 们 前 面 讨 论 的 ， 许 多 设计 决策 (如 划分 和 布局 布线 ) 会 影响 成 本 分 
析 。 用 3D EDA 流程 做 紧密 耦合 的 成 本 分 析 会 使 结果 评估 成 本 更 加 准确 。 第 二 ， 除 
了 考虑 其 他 设计 目标 〈 如 性 能 和 功率 ) ， 成 本 分 析 结 果 可 以 驱使 3D EDA 工具 进行 
更 具 成 本 效益 的 优化 。 


10.5.1 案例 分 析 : FE OpenSPARC T1 三 维 处 理 器 


我 们 使 用 Sun 公司 的 OpenSPARC TI 处 理 器 作为 案例 研究 ， 以 说 明 如 何 通 过 
最 后 一 节 提 到 的 节省 成 本 的 方法 来 抵消 相关 3D 技术 的 额外 制作 成 本 。 降 低 成 本 的 
结果 可 使 一 个 3D 蕊 片 的 总 成 本 将 会 比 相 应 的 2D 芯片 低 。 

正如 我 们 上 节 所 提 到 的 ， 有 两 个 3D 节省 成 本 的 主要 方法 : 金属 层 减 少 ， 在 
制造 期 间 通过 利用 3D 技术 引入 的 三 维 布线 减少 金属 层 数 ; QOO FCR ES, 
使 用 较 旧 和 较 便宜 的 工艺 点 来 制造 划分 非 关键 组 件 到 指定 层 。 

有 两 种 划分 方式 可 以 来 帮助 3D MEER RE RAS: 外 粗 度 划分 。 所 述 的 
OpenSPARC T1 处 理 器 可 以 分 成 处 理 器 内 核 和 缓存 单元 块 ; 在 10. 4.5 节 ， 我 们 
可 以 看 到 这 些 分 区 能 帮助 降低 成 本 ， 是 因为 从 逻辑 层 分 离 存储 器 可 以 降低 成 本 。 
@ 精 度 划 分 。 此 方法 中 ， 在 单元 层次 ' “我们 使 用 图 10-10 所 提 到 的 成 本 驱动 流程 
来 划分 组 件 。 随 着 这 样 的 流程 ， 我 们 将 整个 8 核 OpenSPARC TI 处 理 器 分 成 两 层 
精度 划分 并 保证 时 序 要 求 不 变 。 利 用 这 种 精度 划分 ， 有 两 种 可 行 的 办 法 来 节省 
成 本 : 

1) 90nm 5 90nm 堆 径 。 在 此 方法 中 ， 两 个 层 均 使 用 90nm 技术 。 我 们 将 这 些 
单元 精细 分 割 成 两 层 ， 使 所 得 到 层 的 面积 彼此 相等 ， 并 保持 关键 路 径 不 变 。 从 使 用 
的 90nm 标准 单元 库 的 综合 结果 中 ， 我 们 观察 到 在 8 核 SPARC TI. 单个 芯片 的 总 面 
积 约 为 10. 63mm-  。 用 两 层 3D 划分 ， 单 个 芯片 面积 减 小 至 7. 18mm? 和 7. 03mm? 。 
根据 我 们 的 成 本 模型 ， 相 比 于 传统 2D 146 美元 的 成 本 ， 使 用 3D 的 成 本 是 
125 美元 。 

2) 90nm 与 130nm 异 构 工艺 技术 堆 释 。 在 此 方法 中 ， 利 用 时 序 分 析 结 果 可 以 找 
出 一 组 不 在 关键 路 径 上 且 能 移 到 较 慢 的 层 上 的 组 件 ， 对 其 在 更 慢 的 层 上 使 用 130nm 
标准 单元 库 进 行 综合 。 基 于 该 综合 结果 的 成 本 分 析 ， 此 成 本 可 以 进一步 降低 到 
121 美元 。 
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10.6 交互 对 称 设计 的 三 维 掩 膜 版 的 重复 使 用 


前 面 的 章节 中 仅 讨 论 了 制造 成 本 的 建 模 ， 并 不 包含 掩 膜 版 成 本 。 通 常 ， 每 个 用 
于 堆 鲜 的 芯片 需要 一 套 特别 的 掩 膜 版 ， 因 此 相 比 于 对 应 的 2D 芯片 ， 掩 膜 版 的 成 本 
使 得 3D 芯片 的 成 本 有 所 增加 。 掩 膜 版 成 本 会 随 技术 规模 急剧 增加 ， 因 此 ， 一 组 
3D IC 掩 膜 版 成 本 将 会 对 3D IC 芯片 的 最 终 成 本 产生 显著 影响 。 然 而 ， 由 于 缺乏 掩 
膜 版 成 本 模型 ， 以 及 掩 膜 版 成 本 通 疝 随 特 定 应 用 变化 ,我们 在 本 草 所 描述 的 3D 成 
本 模型 中 不 包括 掩 膜 版 的 成 本 。 

尽管 在 一 般 情况 下 ,一 个 3D IC 芯片 需要 多 套 掩 膜 版 ， 有 些 特殊 的 设计 案例 ， 
如 存储 需 堆 压 ， 其 允许 所 有 存储 需 层 重复 使 用 一 套 掩 膜 版 。 夯 外 ， 在 第 10.4.5 节 
中 ， 我 们 已 经 表明 ， 如 果 基 于 SRAM WRR RE EN ATR, WR 
存 模块 的 金属 层 数 可 减少 到 5 Ez, ANG T 11 层 的 处 理 吾 内 核 ， 这 使 得 成 本 有 实质 
性 的 降低 ， 如 图 10-9 Prax. AJh, 在 10.4.2 T, 3D 集成 电路 金属 层 数 降低 的 潜 
力 已 被 证 实 。 这 种 金属 层 的 减少 不 仅 降 低 了 生产 成 本 ， 而 且 还 有 助 于 抵消 因为 3D 
MEE P^ HE ER LP GS TES BU, AS o 

Alam 等 人 “最 近 提 出 了 使 用 一 种 新 颖 的 设计 技术 ， 即 交互 对 称 设计 (RDS ) 。 
它 能 使 在 3D 堆 苹 裸 片 时 的 一 套 掩 膜 版 可 以 被 其 他 层 重复 使 用 。RDS 的 思想 可 以 用 
图 10-11 所 示 的 双核 存储 髓 堆 倒 例子 进行 说 明 。 










b) RDS AREA EHEZ 





2D 双 内 核 版 图 






 ORDS JEEP: EGRE 
图 10-11 实现 3D 双核 微 处 理 器 的 3 种 方法 


如 图 10-11 所 示 ， 实 现 3D 双核 微 处 理 器 可 用 的 3 种 不 同方 法 : 四 对 于 双核 来 
说 将 两 层 所 有 的 二 级 缓存 移 到 顶层 核 上 。 这 与 7.2 5 (图 7-2a) 描述 的 方法 相同 。 
这 种 方法 需要 两 套 掩 膜 版 : 一 个 用 于 内 核 层 和 其 他 缓存 层 。@) 第 二 个 方法 是 让 内 核 
处 于 内 核 上 (缓存 处 于 缓存 上 ) 的 堆 礁 。 这 种 方法 能 让 单 套 掩 膜 版 用 于 两 层 。 然 


而 ， 因 为 内 核 的 功率 密度 通常 要 远 远大 于 缓存 ， 所 以 这 样 的 堆 鱼 方法 会 导致 更 高 的 
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温度 上 升 。@@ 第 三 种 方法 是 将 第 二 种 方法 中 的 一 个 层 旋转 ， 以 实现 缓存 处 于 内核 之 
上 (内 核 处 于 缓存 之 上 ) 的 堆 释 。 这 种 方法 能 在 交互 对 称 设计 中 重复 使 用 掩 膜 版 ， 
同时 减 小 热 增加 带 来 的 影响 。 


10.7 结论 


为 了 克服 技术 进步 带 来 的 障碍 ， 对 于 未 来 的 集成 设计 来 说 ，3D 集成 电路 是 具 
有 吸引 力 的。 然而 ， 若 要 广泛 使 用 3D 集成 电路 ， 制 造成 本 则 是 需要 重要 考虑 的 因 
素 之 一 。 在 早期 的 设计 阶段 的 系统 级 成 本 分 析 ， 决 定 在 应 用 中 是 否 使 用 3D 集成 电 
路 是 非常 关键 的 。 

为 了 便于 系统 级 成 本 分 析 ， 我 们 研究 在 早期 设计 阶段 对 3D IC 设计 的 评 佑 方法 
并 提出 成 本 分 析 模 型 来 研究 对 成 本 的 影响 。 对 于 成 本 的 分 析 ， 我 们 确定 了 在 3D IC 
设计 降低 成 本 的 机 会 ， 并 对 具有 成 本 效益 的 设计 提供 了 一 些 设计 指引 。 我 们 的 研究 
是 与 目前 3D IC 在 其 他 设计 目标 〈 如 性 能 和 功 耗 分 析 ) 的 研究 相辅相成 的 。 
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